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-一 语言 学 是 数学 和 人 文科 学 之 问 的 桥梁 


法 国 数学 家 阿达 志 (T.Hadamard) 普 经 说 过 ;“ 话 言 学 是 数学 
和 人 文科 学 之 间 的 桥梁 ”。 阿 达 玛 不 悦 是 一 位 有 远见 卓识 芍 学 痢 ， 
他 清楚 闻 看 出 了 语言 学 在 人 文科 学 中 是 最 容易 与 煞 学 建立 联系 
的 。 

然而 ， 在 科学 发 展 史 上 ， 人 们 是 经 过 了 相当 长 的 过 程 志 认识 
到 语言 学 和 数学 之 问 的 这 种 亲密 关系 的 。 

传统 语言 学 的 且 的 在 于 规定 正确 的 谈 和 和 写 的 种 种 规则 ， 这 样 
的 语 这 学 有 点 象 法 律 。 历 中 语言 学 用 谱系 树 的 方法 研究 请 言 的 亲 
属 关系 ， 明 显 好 受到 进化 论 骨 起 的 影响 ， 这 样 的 语言 学 一 如 生物 
学 。 结 构 语言 学 着 力 于 研究 语言 结构 ， 力 图 我 出 语言 中 各 种 要 崇 
之 间 的 结构 规律 ， 这 样 的 语言 学 则 似 化 学 。 

话 言 学 和 数学 都 是 有 着 相当 长 历史 的 古老 学 科 。 语 言 学 历来 
被 看 做 典型 的 人 文科 学 ， 数 学 则 被 许多 人 看 做 是 景 重要 的 自然 科 
学 。 在 学 液 教 育 中 ， 语 文 和 数学 被 认为 是 两 门 最 基础 的 学 科 ， 成 
淮 任 何 一 个 受 教育 者 的 必修 课 。 它 们 似乎 成 了 学 镑 教育 中 的 两 个 
极点 。 一 个 极点 是 作为 文科 代表 者 的 语文 ， 另 一 个 极点 是 作为 理 
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十 无 此 纪 中 时 ， 才 有 人 提出 用 数学 方法 来 研究 洛 A FE SR É 
想法 。1847 年 ,俄国 数学 家 布 里 亚 柯 赤 斯 基 (B .区 .ByaakoacxHt 
认为 可 以 用 福 率 论 坦 行 语法 、 词 源 及 语言 店员 比较 的 研究 。1894 
Е, HEERA ИК Се Saussure) 指 出 ,在 基本 性 成 方 面 ， 
语言 中 的 量 和 晤 之 间 的 关系 可 以 用 数学 公式 有 规律 地 表达 出 来 ” 
万 来 ， 他 在 其 和 名著 + 普通 语 窒 学 教程 41916 年 9! 叉 指出 ， 语 言 学 
ШЛИ 8, “ 它 可 以 归结 为 一 些 竺 证 的 定 翰 ”。1904 年 , 波 
兰 语言 学 家 垃 社 恩 ' 德 : 认 尔 特 内 (Baudouin de Courtenay) 认 为 ， 
语 青 学 家 不 仅 应 该 合 握 初等 数学 ， 而 且 还 有 必要 掌 扬 沿 等 数学 。 
他 表示 坚信 ， 语 言 学 将 日 益 接 近 精 密 科 学 ， 谐 言 学 将 恨 据 数学 的 
模式 ， 一 方面 “更 多 地 扩展 二 的 酸 念 ”一 方面 “将 发 展 新 的 演 弹 思 
想 的 方法 ?。1933 年 ， 美 国语 音 学 家 布 龙 菲尔德 (L,Bloomtiie1d) 提 
到 了 一 个 著名 的 论点 : “数学 不 过 是 语言 万 能 达到 的 最 高 培 界 ?。 

当时 ， 学 者 们 不 仅仅 只 是 洪 出 这 些 贤 具 新 意 瞧 起 法， 还 厂 许 
多 学 者 用 数学 方法 对 语言 进行 了 实际 的 研究 。1851 年 ， 英 辐 数 学 
KE БСА, de Morgatm 曾 把 误区 作为 文章 风 档 的 一 人 特征 Ж 
行 过 统计 研究 。1857 年 ,苏格兰 学 者 坑 贝 尔 CL.CampbelD 用 统 计 
方法 来 确定 柏拉图 苦 作 的 执笔 时 期 。1881 年 ， 德 国学 者 迪 本 员 尔 
ROW .Dittinhberger)? 进 一 步 用 统计 方法 把 柏 控 图 著作 的 执笔 时 期 
分 为 前 期 、 中 期 和 后 期 三 个 阶段 。188?7 年 ,美国 学 者 门 登 佑 尔 人 T， 
C.Mendenhall) 对 不 同时 期 的 英国 文 学 著作 进行 过 统计 分 析 ， 特 
淹 是 研究 了 莎士比亚 的 作品 。1898 年 ， 德 国学 者 邮 定 (CF,W ,Kae 
ding) 编 制 了 医 竹 上 第 一 部 频 度 词典 < 德语 频 庶 词典 ?>, 用 以 政 进 过 
EBT. 1913, ЖЛЕ Б пр СА. А. Марков Т 
普希金 叙事 长 诗 : 欧 根 но АЛЕ НОЕЎ PIR, S 
出 了 马尔 可 去 随机 过 程 论 。1925 年 ， 我 国教 育 家 陈 鹤 地 发 表 了 第 
一 部 议 字 频率 统计 的 著作 < 请 体 文 应 用 字汇 ?。 1935, SHER 
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СО Кіров ТЭС. ЮА WERFEN 克 
(E. Varder Веке) Н TRWA TRARA, AA WAE 时 ， 
EUGA ҖЕН УЖЕ, ОНЕГА ВИЕ, 19444Е, KERF 
ЖС. O Yuley е Y S ЗШЕ ШУ m- 5, KRE 
用 概率 和 统计 方法 来 研究 语言 。 

然而 ， 上 述 的 各 种 用 数学 上 万 法 来 研究 语音 的 想法 和 具体 的 工 
必 ， 都 没有 对 当时 的 语言 学 研究 发 牛 显著 的 影响 。 这 主要 是 由 当 
村 的 社会 实践 的 要 求 次 定 的 。 因 为 当时 的 语音 学 ， 主 要 是 为 语言 
数学 文献 翻译 、 文 学 创作 和 社会 历史 研究 服务 前 。 在 这 样 的 实 
路 要 求 下 ， 话 言 学 没有 多 大 的 必要 与 数学 接近 。 当 热 ， 上 述 各 种 
研究 由 不 乏 单 越 锡 工作 。 例 如 ， 蕊 尔 可 天 在 研究 俄 诸 字 母 序列 的 
ЗТ, W THERI КВО В, АЕ ГЗ M 
еруу, ИКА e yc t Y ЗЕ hui. ЕГА ЛТ 
Жене, DK YL RS AK DIYE ER, АА HMR, ГАО ` 
Ж, НИК ОЙ. ТЕЗЕ ЕЛШЕ А. Е 
ОН ӨШ HB, улл? УЬ, ЗАН p БЕ, 

第 二 次 世界 大 战 以 来， 由 于 科学 技术 帘 飞 猛 进 的 发 展 ， 科 技 
六 献 的 数量 迅速 背 加 ， 其 增长 速度 十 年 翻 一 备 。 据 联合 辕 经 济 合 
作 与 发 展 丝 织 估计 ， 从 1960 年 到 1985 年 ， 世 界 情 报 量 增加 了 10~ 
16 储 。 全 世界 发 行 的 图 书 总 数 是 ，1952 年 多 35 力 种，1962 年 近 40 
万 种 ，1972 年 约 56 万 种 ，1980 年 达到 70 万 种 。 科 技 文献 的 这 种 卉 
长 情况 被 形容 为 “情报 嵌 炸 ?。 面 对 浩如烟海 的 科技 文献 ， 研 究 人 
员 为 了 取得 全 面 而 准确 的 科技 情报 ， 不 得 不 花费 大 量 的 人 力 物 力 
财 为 来 做 难以 数 计 的 翻译 工作 和 检索 工作 ， 犹 如 大 海 捞 针 ， 严 重 
地 影响 了 科研 工作 的 效率 ， 

1946 征 第 一 台电 子 计算 宙 闻 志 后 ， 们 开始 考虑 把 这 些 繁重 
的 工作 灾 给 计算 机 去 佑 ,这 就 提出 了 机 器 翻译 .竹器 自动 做 文摘 、 
机 器 自动 检索 科技 文献 等 自然 语言 信息 处 理 的 问题 。 

在 用 计算 机 进行 自动 翻译 的 了 时候 ， 必 须 进行 床 语 词法 、 句 法 
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ЯЗУ ШЧ ЭЛ5 ЕТ БАЛЕ ЕЕ ИЕ ЯП ИОН ДЕ ДВ. ХИ pss 
Wik m [я] ШЙ HS ЛЕ WPP PUJ P, ЖАПШЕ ИКИ RAR, 

ТЕ ИЗ B ЭНЕ АА Жу, жок ЗЕЛ К {ДЫ 
ЛЕЛЕ, ERRE. ЖОЙ РЕР ОНИ ДҮҮ. ЕҢ 
БВ OA ДАЛЕ РЧ, ЖЭ] KIPA ЖИЫН ЭОЕ ШЕ Ж» ЖК 
ЖЖ нет HELL Ai r, ТЕРГ: E 4226 pea Bu. ЖИЙ 
їй, AUB Y ТИЕ OEI з АО IR, ак р ЖКН 
精密 的 数学 方法 对 自然 语言 进行 描述 。 

由 二 自动 化 技术 和 计算 技术 的 发 展 ， 人 们 正 沁 速 地 解决 生产 
过 程 自 动 化 问题 ， 用 官 然 滞 言 来 进行 “人 机 对 诉 ?， 让 屿 子 计算 机 
理解 肯 然 语言 ， 这 就 本 用 数学 方法 来 研究 句法 结 的 和 语义 结构 的 
形式 化 表述 方式 以 及 知识 的 形式 表示 技术 。 

中 前 微型 计算 机 已 逐渐 普及 ， 它 已 经 在 办 公 室 的 事 劳 管理 中 
得 到 了 广泛 的 此 用 ， 这 就 是 “办 公 室 月 过 化” 问题。 自动化 的 办 
公 室 要 用 微型 计算 机 来 编辑 和 处 理 各 各 书面 文件 ， 这 就 枚 求 对 语 
误 文 字 进 行 严 格 的 形式 化 的 描述 。 

另外 ， 通 讯 技 术 的 发 展 ， 变 求 对 人 负 豆 信息 的 语言 寻找 最 佬 编 
码 方 法 ， 要 求 提高 信道 的 传 边 能 为 ， 以 便 在 保 竺 余 义 不 蛮 的 前 所 
TE ЖАШНЫ НИ И {БИШИ Ө, TARIAREN 
息 ， 这 就 要 求 对 语 育 的 统计 特性 进行 精密 的 研究 。 

在 上 述 的 各 种 促使 语言 学 与 数学 接近 的 因素 中 ， 最 因 关 键 的 
因素 大 电子 计算 机 的 出 型 。 电 子 计算 机 是 一 种 信息 好 理 机 ， 而 和 
然 语言 是 信息 的 最 主要 的 裁 体 ， 电 子 计算 本 前 荐 制 和 发 展 痪 不 开 
自然 语言 的 信息 处 理 ， 而 自然 语言 的 信息 如 理 离 不 开 激 学 。 语言 
学 家 必须 采用 数学 思想 独 数 学 方法 来 研究 自然 语 彰 ， 才 能 回答 信 
ӨЛБӨ EFT; ЗЕДЕН 592 Me it ДЕ „ 

时 在 现代 叶子 数字 计算 机 出 现 之 前 ， 英 三 数 学 家 网 灵 5A， 
М,Ти таз Ж Ж РЕЖ ЕЗ] Н БЕЛҮЧЕ Н Р 
ШШ. МНЦ, SRAT ЫЙ, 0 ЖИВ ДЫ А-ДИ 
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EHAE а ИД, MEA НК ph БОРК BJ iH ЖДИ? 
Жл ЕЕ АШЫЙ ФАШ ЛИГЕ РЭ АН 
象 的 活动 作为 最 好 的 出 发 虚 ， 不 过 ,我 更 括 向 于 支持 男 一 种 主张 ， 
这 种 主张 认为 ， 最 好 的 遇 发 点 是 制造 出 一 种 其 碍 智能 的 、 可 用 鲁 
买 到 的 机 器 ， 然 后 ， 教 这 种 机 器 理解 英 话 并 且说 英 话 。 这 个 过 程 
可 以 仿效 小 孩子 说 话 的 那 种 办 法 来 进行 。" 中 图 灵 担 出， 检验 计算 
机 智能 高 低 的 最 好 办 法 是 让 机 器 讲 英语 ， НИЕ, WATA 
RA ЖЕЛЕУ ЕЕ ОА ШЕ ЗЕ ИП. ЕКСЕН ДААШ. 
ШТЕТА НЯ Е, ЗРО s Y ТОЕП 
领域 。 жш 有 如 下 几 个 方面 ， 
， 第 一 台电 子 计算 机 刚 铅 址 的 1946 年 ， 英 国 工 程 师 布 斯 
(A.D. рл Weave 在 讨论 电子 计算 
机 的 应 用 范围 寺 ， 就 问 出 了 几 电 子 计算 机 进行 机 器 翻译 的 设 神 。 
党 绅 还 发 表 了 关于 机 器 帮主 的 备忘录 ， 主 张 进行 机 器 翻译 试验 。 
t954 年 ， 在 美国 国际 商用 机 器 公司 (TBM 人 公司) 的 光 持 下 ， 美 国 乔 
治 教 大 学 进行 了 世界 上 第 一 次 机 里 翻译 试验 ， 同 年 ， 美 国 海军 军 
БАШ ДЕЙ IBM701 计算 和 灿 建成 了 世界 上 第 一 个 自 壕 情报 检索 系 
统 。 从 此 ， 机 器 翻译 和 自动 情报 检索 工作 茵 勃兴 起 。 在 这 样 的 研 
帘 工 作 中 ， 需 要 进行 词 的 切 分 ， 这 就 要 深入 地 研究 攀 词 法 ， 从 而 
促进 了 形态 学 的 铬 究 。 传 统 的 形态 学 要 区 分 周折 (infleetion? 与 派 
Æ C(derivation), ЖЖ jE [йр amend/amended д Д Ж, атепа/ 
amendment ÆRE. АШ, РУИС А, aE Е AA 25 
要 的 。 一 个 自动 形态 分 析 方 案 可 包含 一 部 词 干 词典 以 及 一 套 构 词 
的 语法 规划 EHIE, MAMI. AH, MWF, DLT L 
FB Si pb B|? ШЕЛГЕ EAE {ДЕ 
可 以 把 它 分 析 为 词 于 和 和 词组。 对 于 机 器 求 说 ， 必 须 区 分 各 种 同形 
5, #frightenrE H-en Hoven K-en 区 天 开 来 ， Tcaped 中 


р 
Ду А, M. Turing, “Can А Machina Think”, Mind 50, 105% 
B.T he World of Mathematics (ed by J. K, Newman), p.2099 
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М -е@ hireedih hy de Е. Эр, EROS E — BE yk aN, 
з. М. perlorm, give, во СЕН) ——— performed, gave, 
Went СКЈ), ERWA ГА ЕИ рар TAE ас ВУ 
A, Rieiiies/city, Ж, WAJEN ИТ ТЗ ASELNI By ah 
BARH. ЕСК А Е НЕА ERI. ЗЕ 
ЖЕЛ ПЕ, EERE HAT ТЕТИВА ЗЕТ А BS 
ЕЕ Р, АГАНА A ЖЕБЕ ЕЛДЙ 

ЖАЛЕ, ЭКЛЗ ESE НЕШ» РИШ, Sa 
JE у Sert Е Ч ВЕЕ ТГ А ЗЕ АЗУУ, JA 
ҮЙ Pela i ПИ И Ра АТАРА. TJ, МИ, js 
ЕЛА. ИАА ЕАГИ), Work f 
B a Жи] Р И ВЕ ЛЕ, ШУ огкег (work- El, 
ег) ЖАНАР. Ий, И®Ш АЕА, ШШ 
workers (work-#: BJ Tr, ег A- sE) 有 的 词 还 可 以 
带 前 级 ,如 incompact(in-- 是 前 级 ，compact 是 词 干 )。 如 果 把 一 利 
语言 申 词 的 各 个 物 词 咸 分 分 别 编 成 词 正 ， 吉 说 干 词典 , 词 级 遍 典 、 
词尾 词典 等 ， 在 词典 中 注 明 各 个 构 词 成 分 的 语 渤 信 息 ， 然 后 ， 设 
计 妆 下 一 个 有 限 自动 机 来 深 制 切 分 过 程 ， 便 可 实现 单词 的 自动 形 
态 分 析 ， 


前 级 g 


图 9.1 切 分 单 河 的 有 有 限 自 动机 
在 图 0.1 的 有 限 上 自动 机 中 ， qu, 91, 92» Чу 是 状态 的 有 限 集 
E GEIRR, GERERE, AARE ae 
. ú а 


态 可 邹 分 出 -个 构 词 成 分 。 由 如， 从 状态 Ga 到 状态 4. 以 及 从 状态 
ж. ауну БУ НАЕ, Аа, ЯВАА И ААА ЯПА 
жалт шй, ARE Аа: пи Н Е, ЛАКА, 
І КА, ЛГ ОВА. ВЕТО Я. Е DM q EO, 3) 
GHR. ЖШ, И work 是 一 词 干 ， 其 切 分 状态 是 从 go 到 gr і 
Wworker 是 由 词 于 和 后 久 构 成 的 ,其 切 分 过 程 是 从 9, 到 91 最 后 到 gj: 
词 workers BRAT, 后 鱼 和 词尾 构成 的 ， 其 切 分 过 稳 是 从 9490 到 
91 到 4 最 后 到 49/ 词 incompact 是 由 前 级 、 词 千 构 成 的 ,其 幻 分 过 
程 是 从 es 到 4 最 后 到 gr。 

在 切 分 过 程 中 ， 有 有限 自 动机 把 词典 中 省 构 词 成 分 相应 章 语 法 
信息 ， 记 录 到 输入 词 路， 这 样 ， 当 切 分 结束 时 ， 每 个 输入 词 痢 
山上 了 有 闫 的 语法 信息 、 为 进一步 的 分 析 提 供 了 数据 。 

可 见 ， 数 学 方法 的 引入 有 效 地 解决 了 单词 的 自动 形态 分 析 问 
题 。 计 算 机 的 自然 语 刘 处 理 就 象 俱 化 判 ， 它 促进 了 数学 和 谐 育 学 
的 结合 。 

第 二 ， 后 来 人 们 发 现 ， 机 器 翻译 时 不 仅 要 找 出 两 种 语言 的 词 
汇 对 应 关系 ， 还 要 进行 句法 分 析 ， 世 就 是 要 用 名 对 司 翻 译 来 代 赫 
И, AREETA ЛАТ РЭГ, 

А ИЕ АҺ Т ЖОРИК ЗЕ. WEARER B: hr ФО 
(О. С. Кулагина) Н yb yi an Y EP A. БИЙ ШЕЙ ҮТ 
ЗООС, a А КЕБЕЗ Pu ОГ ЕЗ ЗЕ Er IE Pr gre 
所 联合 研制 的 法 俄 机 器 翻译 系统 的 理论 葵 础 。 洲 名 的 数理 慰 辑 学 
е СҮ. Вак-Н1Пе1у ЕҢ ҮЗ И ИЕ, Шу у ИЫ 
Жк ЖЖ) ре PLS), НАТУР, Бур] —1- JT. 
平 语法 ， 这 些 ， 痢 大 大地 推动 了 传统 的 外 法 分 析 方 法 向 精密 化 、 
算法 化 曾 方 向 发 展 。 可 见 ， 数 学 方法 的 引入 给 铝 法 的 形式 化 分 析 
带 来 了 上 生 机。 

第 三 ， 六 十 年 代 出 现 了 高 级 程序 语言 ,使 计算 向 工作 省 从 繁 项 
的 竹编 程序 的 沉重 费 动 中 解放 出 来 ， 与 紫 同 时 ， 学 者 们 混 出 六 这 
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ЗЕЕ Е ПИЖЕШ, ШЕШ ЈА Ў (Bacus-Naur 
normal form, ВМР), БЖ, BFAA (М. 
Chomsky) ЕЭ 26269 Conext-free stammar , СРО, 
怡 好 与 BNF 等 价 ， 它 们 玖 数学 形式 让 实 质 上 是 完全 一 致 的 ,于 是 ， 
BNF 与 CFG 在 数学 上 获得 了 高 度 的 统一 . 因而 乔 姆 斯 基 的 工作 相 
起 了 计算 机 科学 界 和 数学 腊 的 广泛 注意 。 出 了 于 这 种 数学 上 的 高 处 
统一 ， 乔 姆 斯 基 的 形式 语言 理论 域 为 了 计算 机 科学 的 菠 丰 之 一 ， 

这 一 理论 的 提出 ， 推 动 了 计算 机 条 学 的 发 展 。 乔 姥 斯 基 在 + H S 
语言 形式 分 析 导 论 > 一 文中 ， 从 数学 的 角 诬 给 诸 言 提出 了 新 的 定 
义 ， 指 出 “这 个 定义 始 适用 于 自然 语言 ， 义 适用 于 逻辑 和 计算 机 
ЖЕРЕ ТИШИ Р ИА ИКИ”, OFRECE “文法 的 形式 特性 > 
一 文中 ， 专 门 用 了 一 节 的 篇 幅 来 论述 程序 设计 语言 ， 他 讨论 了 有 
关 程 序 设 计 语 育 的 编译 程序 治 题 ， 这 些 问 题 ， 基 作为 “组 成 成 分 
结构 的 语法 理论 的 形式 研究 "， 从 获 学 的 角度 提出 来 的 。 他 在 < 上 
正文 无 关 语言 的 代数 理论 ?一 文中 提出 ;我 们 这 里 要 考虑 的 是 各 
种 生成 包子 的 装置 ， 它 们 又 久 各 种 各 样 的 方式 ， 间 自然 语言 的 语 
法 和 各 种 人 造 语言 的 语法 二 者 都 有 着 密切 郊 联 系 。 我 们 将 把 语言 
直接 地 团 成 在 符号 的 某 一 有 限 集合 Y 中 的 符号 内 的 集合 ,而 Y 就 中 
做 该 语言 的 词汇 ……， 我 们 把 语法 看 成 二 对 程序 设计 语言 的 详细 
说 明 ， 而 把 符号 串 看 成 是 程序 *。 在 这 里 , 乔 姆 斯 基 妈 自然 语言 与 
程序 设计 语 诗 放 在 同一 平面 上， 从 数学 的 乔 度 ， 用 统一 的 观点 来 
加 以 考 赛 ， 对 “语言 ?>、“ 词 汇 ”等 语言 学 中 的 基本 概念 ,获得 了 
高 度 抽 每 化 的 认识 。 他 在 < 形式 主 法 导论 > 一 书 前 导言 中 指出 ;<* 生 
成 语法 欧 研 究 之 能 实现 ， 乃 是 数学 发 展 的 结果 ，…… 普 多 语法 的 
数 吾 研究 ， 很 可 能 成 为 语言 理论 的 中 心 领 域 。 现 在 要 确定 这 些 希 
望 能 否 实 现 还 为 时 过 早 。 但 是 ， 根 据 我 们 今天 已 经 懂得 的 和 正和 站 
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ЖЕЛИН, АИО REUMA: P 
这 证 法 的 某 种 数学 理论 与 其 说 是 今日 的 现实 ， 切 宁 说 是 未 来 的 着 
户 。 人 们 至 多 只 能 说 ， 肯 前 的 研究 似乎 正在 导致 这 样 一 种 远 论 。 
罕 我 春玉 ， 这 是 分 天 报 令 人 鼓舞 的 桩 究 领 域 之 一 ， 如 果 它 能 获得 
戌 动 ， 郑 么 ， 将 来 它 可 能 把 语 宣 研究 者 于 一 种 金 新 的 基点 上 。” 吕 

还 有 一 种 高 级 程序 语言 是 ALGOL E06， 这 是 一 种 用 于 科学 计 
算 的 程序 语言 , ALOOL ВОКА, 人们 在 使 用 中 败 现 了 它 存在 
IAHE AREO, FE TEIARS g RPL Aik 
ШИЖ — ЖШ РЕ ӨЫ ERRA Y PE, AKARAN. ИЖ. 
夭 姆 斯 基 从 理论 上 证 明 ， 一 个 任意 的 上 上下文 无 关 文 法 CFG 蚌 否 有 
二 义 性 的 问题 是 不 可 判定 的 ， 册 于 CFG 与 程序 设计 诺言 的 BNF 等 
恰 ， 而 ALGOL60 的 形式 描述 正 是 BNF， 因 辽 , 这 种 程序 设计 语言 
是 否 有 二 义 性 前 问题 也 是 不 可 判定 的 。 乔 姆 斯 基 从 CPG 与 BNF 在 
数学 上 的 一 臻 性， 有力 地 回答 了 计算 抽 科 学 中 的 这 一 重大 型 论 尊 
题 ,充分 地 显示 了 数学 对 于 请 青学 理论 和 jif 算 机 科学 理论 的 作用 。 
这 样 ， 也 就 吸引 了 许多 有 才能 的 数学 家 和 计算 机 专家 来 关心 语言 
学 中 的 数学 问题 。 

第 四 ， 机 器 翻译 研究 的 次 入 峻 及 立足 于 模式 匹配 的 自然 语 吾 
理解 系统 的 研制 ， 进 一 步 推动 了 自动 名 法 分 析 的 右 党 ， 而 这 些 研 
AMPARAR FGE. 

在 语言 学 领域 由， 乔 姆 斯 基 提 出 了 转换 生成 语法 ， 韩 礼 德 
(М, А.К, Halliday}) 提 出 了 系统 庄 法 ， 兰 姆 (S. М. Lamby 提出 
了 层级 语法 ， 派 克 提 出 了 法 位 学 理 沦 ， 阔 赣 达 (G. Gazdar) Hh 
了 广义 短语 结构 语法 。 这 些 语 法 理论 都 是 相当 形式 化 的 ， 有 着 数 
学 一 般 的 严 遵 风格 。 

在 计算 机 科学 领域 由 ， 许 多 计算 机 专家 和 人 工 知 能 学 者 ， 也 
用 数学 力 法 来 研究 句法。 伍兹 (W. Woods) 提出 了 扩充 转移 网 络 ， 


T MGross,A.Lentin, Introduction to Formal Grammars, ТЕ ДЕ 
ЖЇГЇ А, Berlin, Springer-Verlag, i970. 


本 普兰 (R. Kaplan) 提出 了 通用 和 法 生成 程序 , 埃 丁 格 尔 (A, О. 
Oettingef) 提 出 了 预示 分 析 法 ， 凯 依 CM. Kay) 提 出 了 功能 合 一 请 
法 。 这 些 理 论 和 方法 ， 都 十 分 便于 直接 用 于 进行 算法 设计 ， 便 于 
在 计算 祝 上 实现 。 

在 这 种 情况 下 ， 出 更 了 一 大 批 兼 通 语言 学 、 数 学 和 计算 机 科 
学 的 人 才 ， 如 语言 学 家 布 列 斯 南 (J, Bresnan) Яп B 6519 
汇 功能 语法 ， 处 处 都 使 用 了 数学 论证 的 方法 。 这 竹 语 法 理论 本 身 
就 是 语言 学 和 数学 相互 渗 迁 而 形成 的 绝妙 产物 。 

传统 和 旬 法 学 是 用 来 教 人 学 习 和 句法 分 析 的 ， 而 上 述 的 各 种 带 有 
数学 风格 和 算法 色彩 的 句法 堂 则 是 用 洲 教 计算 此 进行 自动 句法 分 
析 的 ， 当 然 岂可 以 下 它们 来 教 人 ， 这 样 的 研究 成 果 ， 进 一 步 丰 富 
ТЯН Р КПА 

第 王 、 语 音 的 自动 合成 与 分 析 是 语言 信息 处 理 的 一 个 重要 方 
面 。 反 三 十 年 来 ， 已 研制 出 一 批 试 验 诈 的 话音 合成 器 ， 它 们 能 把 
语音 类 说 转 化 为 语音 ， 这 是 十 分 困难 的 工作 ， 因 为 语音 频谱 提 供 
测 来 的 信息 实在 是 太 多 了 ， 正 如 著名 语音 学 宗方 特 CG. Fant) 所 
说 的 ， 人 们 很 容易 洪 没 在 不 了 解 其 意义 的 各 种 声学 特征 的 细节 的 
广 洋 大 海 之 中 。 不 过 ， 从 五 赴 年 代 初 以 来 ， 在 请 党 合成 器 的 研制 
方面 仍然 取得 了 有 意义 的 成 果 。 远 在 1939 年 ,多 德 莱 (Н. Dudley) 
就 在 纽约 的 国际 博览 会 上 展 出 了 “ 痪 话机 ?talging machine), 
1954Ж M T ШАЛ, (Уап Kempelen machine), ЕН 
s АБЕКЕҤЕНУТ И, ЗНИКНЕ И, АЖЕН S ЛЫШ 
研究 ， 本 以 进一步 揭示 人 类 言语 产生 的 机 制 ， 并 可 作为 研究 言语 
的 产生 和 感知 的 工具 。 因 此 ， 具 前 国外 在 内 和 尔 实验 室 、 朵 省 理工 
学 院 、 剑 烽 空 军 研究 实验 室 、 斯 德 哥 尔 摩 皇 家 技术 学 院 痢 进行 过 
语音 合成 器 的 研究 。 我 国 在 语音 含 成 的 研究 方面 已 取得 很 大 成 绩 ， 
中 国 社会 科学 棕 语 言 研 究 所 的 汉语 普通 话语 音 合 或 ， 其 自然 度 和 
ЖАЮ “URAA” ВЭР. 
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换 为 属于 抽象 铬 育 学 领域 的 离散 的 描述 。 奥 登 《K. W. oeny 
指 让 ， 语 译 分 析 要 注意 四 个 主要 问题 :i1) 选择 恰当 的 语言 单 苑 ， 
(2) 把 连续 的 信和 号 转换 为 离散 的 信号 ，C3) 研究 言语 声学 特征 的 
EE, (C 研究 言语 的 多 余 度 。 滞 音 分 析 的 结果 就 是 语音 的 自 
动 识别 ,国务 已 经 研制 成 DRAGON HARPY 等 试验 性 的 英语 语音 
识别 系统 ,我 国 在 语音 识别 方面 ,主要 围绕 着 特定 说 话 沉 天 词 天 语 
音 识 别 系 镜 和 非特 定 说 话 考 小 词 表 语音 识别 系统 开展 工作 。1986 
年 喻 永 淡 工 业 大 学 研制 出 3000 个 孤立 单词 的 诺 宜 识别 系统 。1988 
年 请 华 大 学 利用 矢量 量化 和 路 式 马 尔 可 夫 术 型， 研制 成 功能 够 识 
别 30 个 城市 各 称 的 非特 定 说 话 着 语音 识别 系统 ，1939 年 又 笑 制 则 
BEIR я 200 多 个 单词 的 实时 非特 定 说 活着 语音 识别 系统 。 中 国 科 
学 院 声 学 角 究 所 研制 的 2008 个 孤立 单词 的 实时 语音 识别 系统 ， 在 
1988 年 西欧 高 技术 展览 会 (TEC-88) КЖ ДА, ЖЕ ШЕ 
已 制 成 语音 打字 机 。 

语音 的 自动 合成 与 分 析 容 涉 到 诺 音 的 语 声 统计 特性 、 语 言 俯 
号 担 期 平均 处 理 、 频 漳 的 分 析 与 合成 、 条 期 傅 里 时 变换 、 语 言 的 
线性 也 油 分 析 等 数学 问题 ， 这 是 请 理学 与 数学 彼此 协作 、 和 相 得 益 
ЖУКА. 

BA, РОСА Wk НЕЕ, СЧА РОР Q in 
BJ yt ih К. ВАЗ И 8, А ШИНЕ у 
许多 方法 ， 如 图 象 识别 的 句法 分 术 方 法 ,也 可 用 到 文字 识别 中 去 ， 
这 方面 的 工作 在 美国、 日 本 都 取得 了 很 大 成 就 。 图 象 识别 的 一 般 
理论 和 方法 也 涉及 许多 数学 问题 ， 如 向 运 用 这 些 理论 和 方法 来 研 
究 书 而 叉 字 的 结构 ， 将 是 一 个 航 有 意义 的 新 课题 ， 也 许 会 给 古老 
的 文字 学 研究 升 膀 出 一 片 新 的 天 地 。 我 国 的 汉字 识别 研究 独 具 畦 
色 ， 有 深 用 选取 识字 蛙 征 点 和 独 学 形态 学 的 方法 来 提取 汉字 结构 特 
征 ， 上 月 前 ， 在 印刷 体 汉 字 识别 方面 ， 已 研制 出 一 批 实用 系统 ， 部 
分 系统 已 经 商品 化 ， 这 些 系 统 -- 般 都 共有 版 面 分 析 、 文 本 识 草 ， 
TAREE Е, АЗЕ, ВЕН, ПЕНЕВ, eg 
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BUT А p| E, PANERA. CARRA s Sh fE 
的 水 主 。 在 文字 识别 这 个 领域 ， 煞 学 也 是 大吉 用 武之 地 的 。 

在 电 于 计算 机 上 输入 输出 英文 、 盆 文 等 拼音 文字 《主要 是 拉 
了 字母 和 斯 拉夫 字母 ) 的 问题 早已 解 沪 ， 但 是 象 汉字 这 样 的 由 数 
万 个 字符 构成 的 大 字符 集 ， 其 输入 输出 计算 机 的 沿 题 就 不 是 很 容 
易 的 事 了 。 为 了 解决 汉字 的 输入 输出 间 题 ， 推 动 了 汉字 编码 的 研 
究 ， 而 为 了 使 议 字 编码 研究 建立 在 科学 的 相 础 上， 就 总 须 求助 于 
数学 ， 来 研究 汉字 的 频 诬 ， 分析 汉 字 的 部 件 ， 测 试 汉 字 的 信息 量 
利多 余 度 ， 设 计 高 效率 的 汉字 输入 键盘 。 汉 字 的 定量 研究 已 直 起 
了 许多 学 者 的 关注 。 这 是 数学 在 语言 学 研究 中 发 挥 作用 的 另 -一 个 
场所 。 

县 前 ， 在 拉丁 字母 和 斯 拉 未 字母 多 外 前 一 些 拼 音 文 字 ， 划 泰 
文 、 朝 鲜 文 、 阿 拉 伯 文 、 荔 文 、 惹 文 等 在 计算 机 上 的 输入 输出 问 
题 , 已 有 了 可 喜 的 研究 成 果 , 这 些 成 果 的 取得 在 很 多 方面 得 益 于 文 
字 绕 计 特 性 的 研究 ， 在 数学 和 计算 机 科学 欧 推 动 下 ， 忧 统 的 文字 
FURAR, KET- EREHE 

第 七 ， 七 十 年 代 忆 来 ， 建 立 了 许多 立足 于 语 尽 的 自然 后 言 理 
解 系统 ， 使 长 期 不 受 重视 的 语义 学 得 到 了 发 展 ， 狼 学 方法 也 在 语 
义学 中 得 到 了 应 用 。 

近 数 十 年 来 ， 不 少 语言 学 家 认为 ， 语 义学 不 是 语言 学 的 一 个 
分 支 ， 他 们 只 关心 语言 形式 的 研究 ， 而 把 意义 的 研究 推 结 暂 学 或 
其 它 学 科 来 进行 。 但 是 ， 随 车 机 器 釉 译 和 自然 语言 理解 研究 工作 
的 进 里 ， 和 再 加 上 语言 学 更 论 论战 的 需要 ， 促 使 诺言 学 家 去 研究 语 
义学 。 学 者 们 逐渐 认识 到 ， 芝 至 句法 的 研究 也 是 不 可 避免 地 与 语 
义学 绍 总 在 一 起 的 ， 因 此， 他们 又 重新 对 语义 学 发 上 生 了 兴趣 ， 并 
卫 这 种 兴趣 很 快 地 与 日 俱 增 。 

暂 学 家 们 曾经 提出 过 意义 公设 系统 ， 它 包括 规则 和 系统、 蕴涵 
符号 (- 一 > 》)、 邮 辑 连 词 (and、or，not) 等 ， 这 样 ， 便 可 以 把 河 前 
意义 分 解 为 若 千 个 基本 意义 组 成 的 意 久 公设 系统 。 例 如 ， 
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boy—— male 

giri -->Ïemale 

man—>mile and adult 

Woman-—>{fecemale and adult 

boy ог girl— ynot adult 

female—— not mals 

man or Woman or girl or boy-—— >human 

在 意义 公设 系 绕 中 ， 词 的 意义 可 由 一 纽 滞 义 公设 来 确定 。 哲 
学 家 位 的 这 些 研 究 ， 使 意义 获得 可 计算 的 性 质 ， 注 用 数学 方法 研 
究 语 义学 打 王 了 基础 。 在 这 种 情况 下 ， 一 些 语言 学 家 ， 如 美国 诸 
AFARO. А. Роботу yH. D。，McCawley) 等 ,又 把 语 
育 与 远 辑 的 相互 关系 这 样 的 问题 重新 担 了 出 米 。 乔 姆 斯 基 关 于 深 
层 结构 和 表层 结构 的 理论 ， 把 说 义 间 题 担 到 了 相当 的 高 度 ， 卡 获 
(4. Katz) 和 茵 托 等 提出 了 解 杰 语 义学 ， 采 用 成 分 分 析 法 ， 利 用 语 
义 成 分 、 标 记 及 关系 来 定义 词 符 成 分 ， 并 加 上 一 些 控 制 和 选择 限 
撩 来 少 绎 地 解释 句子 的 语义 。 菲 尔 摩 (C. J. Fillmore》 提 出 了 格 
语法 ， 从 局 子 的 深层 名 法 表示 来 排 苇 句子 的 表层 结构 。 才 考 利 等 
提出 了 生成 语义 学 ， 他 们 一 开始 就 用 请 义 结 多 来 刻画 句子 ， 然 后 
通过 一 系列 的 转换 由 这 种 语义 结构 产生 出 表层 结构 ， 而 用 不 着 对 
深层 结构 作 任 何 说 明 。 威 尔 克 斯 (Y. А. Wilks) 提出 了 优选 语义 
学 ， 着 把 这 种 理论 胃 于 甘 法 机 器 悉 译 系统 。 在 这 些 新 的 语 交 学 理 
论 中 ， 都 采用 了 数理 逻辑 的 演算 方法 ， 充 分 地 说 明了 数学 对 于 语 
义学 的 深刻 影响 。 
人 秆 得 注意 的 上 是， 有 的 数学 家 和 和 计算 机 科学 家 也 进行 了 语义 学 

和 研究， 他们 也 提出 了 一 些 有 价值 的 请 义学 理论 。 如 美国 数理 逮 辑 
FERIIS (R.Montague) Pih T RHS X k Montague 
grammar), REHA MPR (R. С. Schank gih T Ik 
FE. ЗЕЛЕ ЗЯ Se (R. P. Simmons) 提 出 了 语义 网 
ЖИ. EM H ERRER T, ТОРЕ, EMS 
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总 之 ， 电 子 计算 机 的 出 现 和 广泛 合用， 就 蒙 俱 化 剂 一 样 促进 
了 数学 和 语言 学 的 结合 。 数 学 浴 甫 到 了 形态 学 ， 名 法 学 .词汇 学 、 
语音 学 、 文 字 学 、 语 义学 等 语言 学 的 各 个 分 支部 门 ， 促 进 了 诸 言 
学 的 数学 化 。 而 语言 学 的 数学 化 则 是 语言 学 现代 化 的 一 个 重要 内 
容 ， 这 些 内 容 被 概括 在 “ 数 表 诸 言 学 "(mathematical linguistics) 
这 个 新 兴学 科 中 ， 并 得 到 了 迅速 的 发 展 。 

1955 年 ,美国 哈佛 大 学 首先 创办 了 数理 语言 学 讨论 班 ,1957 年 
正式 开设 了 数理 语言 学 课程 。 接 着 ， 洲 省 盟 工 学 院 . 密 歌 概 大 学 、 
赛 乡 法 尼 亚 大 学、 印第安 纳 大 学 、 加 利 福 尼 亚 火 学 都 和 继 开 设 了 
数 迎 语言 学 课程 。 同 年 ， 日 本 成 立 了 计量 语言 学 会 ， 创 办 了 数理 
语言 学 杂志 计量 同 语 学 ?， 联 部 德国 的 波恩 大 学 也 开设 了 数理 语 
言 学 课程 ， 苏 联 在 莫斯科 天 学 、 列 宁 格 勤 大 学 及 莫斯科 同 立 第 一 
外 国语 师范 学 院 也 进行 了 数理 语言 学 的 研究 工作 。1958 年 ， 莫 斯 
科大 学 、 离 尔 基 大 学 、 萨 拉 托 夫 大 学 。 托 姆 斯 克 大 学 ， 分 别 给 数 
学 系 及 语文 系 的 学 生 开设 了 数理 语言 学 的 选修 课 ， 并 在 列宁 格 蔓 
大 学 设置 了 数理 语言 学 专业 。 

Ж, PHE, WFA, {ЖИТ И, ЖЫ, В. 
威 ， 德 意志 民主 共和 国 、 波 兰 、 瑞 上 典 等 国 ， 都 党 后 开展 了 数理 语 
请 学 的 研究 工作 ， 有 的 国家 还 创办 了 专门 的 刊物 ， 成 立 了 专门 的 
研究 机 构 。 

我 国 从 五 十 年 代 起 便 开展 了 数理 语言 学 的 研究 工作 。1982 年 ， 
北京 大 学 中 文系 给 汉语 专业 的 学 生 开 设 了 :语言 学 中 的 数学 问题 
的 选修 课 , 首 先 在 我 国 开设 了 数理 语言 学 方面 的 课程 DP 。1985 年 ， 
上 海 知识 唱 版 社 出 版 了 了 我国 的 第 一 本 数理 语言 学 专营 “数理 
语言 学 >。 数学 的 定量 的 研究 方法 已 逐 沸 受到 我 国 传统 的 语言 学 家 


Ф TEI ЖЇШЙ, «ШИ То, (数学 "我 们 数学 ?从 书 ,湖南 孝 
育 出 版 社 ，1989 年 ， 党 88 页 。 
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HEER, ЖАЙ ЕИ ПИКЕТ 6, 在 用 数学 方法 研究 
МА. ЗЕКИ, АКИБ. ME 
HAH УЕА, УИН А Е ТЕТ, SEIS kE ЈА 
дь 

数理 语 寺 学 的 研究 常常 要 用 电子 计算 机 作为 工具 ， 杀 此 ， 它 
号 计算 语言 学 的 研究 是 联系 在 一 起 的 。 当 前 ， 数 理 语言 学 与 计算 

语言 学 有 合流 汐 倾 向 。 КОПОЛ, EEF.. 数学 、 计 算 机 科 
学 有 着 不 解 之 缘 。 

TREZE ЕР ЗАС УКСА. Schleicher) 把 生 
Btr ЛЕЙТ ИЕ БӘЛЕШ, ВОН ТЕКТ 
ЛЕКИ, АЖАН Т A ШЕЕ БИЗШЕ» Ot 
让 纪 初 时 ,美国 话 言 学 家 雅 可 布 进 (R. Jakobson) 把 物理 学 中 关于 
物质 出 基本 粒子 构成 的 理论 用 于 音 位 研究 ， 提 出 了 音 位 的 区 别 特 
征 举 说 ， 把 客 位 党 的 研究 发 展 到 一 个 新 的 阶段 。 在 当今 的 信息 革 
仿 时 伐 ， 把 数学 局 想 和 数学 方法 用 于 语言 研究 ， 必 将 合 语 言 学 迁 
应 新 技术 革命 的 圳 要 ， 从 而 促进 语言 学 的 发 展 ， 数 理 语 言 学 有 着 
ГАН ЕПА. 

Жаа Ел" ЕЕ, З АС ЖК ШЕ ВЕ 
次 学 星 论 ， 使 我 们 更 深入 地 了 和解 到 语言 符 导 的 许多 重要 特性 ， 这 
些 语 言 符号 新 特性 前 发 现 ， 必 然 从 新 的 侧面 进一步 站 富 我 们 对 于 
语言 符号 本 正 的 认识 ， 轴 深 我 们 对 数学 与 语言 的 关系 的 理解 。 本 
书 关于 数学 与 语言 关系 的 探讨 ， 正 是 建 六 在 我 们 对 诸 言 符 导 的 新 
特性 认识 的 基础 之 上 的 。 

为 了 使 本 书 的 探讨 有 一 个 可 掌 的 立足 点 ， 我 们 有 必要 谈 一 下 
我 们 对 谣言 符号 本 质 特 性 的 认识 。 

ПРАНК Баана, 
Wie Bi S Brin FIS 4 ЕЕ, © 


Q Ж-Ж, 《普通 语音 学 教程 ?， 中 译本， 第 103 页 ，106 页 。 
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一 -、 符 号 的 任意 性 ,语言 符号 的 能 指 和 所 指 的 联系 是 任意 的 。 
索 绪 尔 认为 ， 符 号 任 党 性 的 原则 “支配 着 整个 语 育 学 ， 客 的 后 有 果 
是 不 胜 玫 举 的 ， 人 们 经 芝 许 多 局 折 才 发 更 它们 ， 同 时 世 发 现 了 这 
个 原则 是 头等 重要 的 ”。 

二 、 能 指 的 强 条 性 ， 索 绪 尔 指 出 ,语言 的 能 指 周 于 听 党 性 质 ， 
只 在 时 间 上 展开 ， 而 且 其 有 异 自 时 间 的 特征 ,， (1) 它 悼 现 为 一 个 
ER, D 这 长 度 只 能 在 一 个 向 度 上 测定 ， 它 是 一 条 直线 。 崇 绪 
尔 认为 “这 是 一 个 似乎 为 常人 所 忽略 的 基本 原则 ， 它 的 后 果 是 数 
之 不 尽 的 ， 它 的 重要 性 与 符号 前任 意 性 规律 不 相 上 下 ， 语 言 的 束 
个 机 构 都 取决 于 它 "”。 

索 绪 尔 提出 的 语言 符号 的 这 两 个 特性 ， 当 然 是 十 分 重要 的 。 
然而 ， 索 绪 尔 以 后 现代 语言 学 的 发 展 ， 特 别 基 电子 计算 机 出 现 以 
后 现代 诺言 学 的 发 展 ， 严 摊 地 考验 着 索 绪 尔 的 理论 ,在 我 们 看 来 ， 
索 绪 尔 提出 的 语言 符号 的 任意 性 这 一 特性 是 无 可 非议 的 ， 但 是 ， 
他 提出 的 语言 符号 的 第 二 个 特性 一 一 能 指 的 线条 性 就 未 必 是 正确 
的 了 ， 因 为 新 的 研究 结果 表明 ， 语 言 的 能 指 并 不 只 是 线条 性 的 东 
西 。 英 国 著 名 语言 学 家 莫 斯 G.R. Firth) $ H “B ВЕ" 
《prosodic)， 他 认为 ， 在 一 种 语言 里 ， 区 别 性 语音 特征 不 能 都 归 
纳 在 一 个 音 段 位 置 上 ， 例 如 ， 诸 调 就 不 是 处 于 一 个 音 段 位 置 上 ， 
而 是 处 于 前 后 相 续 的 线条 性 的 寄 段 之 外 ， 秒 单 着 或 管 领 着 整个 句 
子 的 东西 。 如 果 我 们 把 语调 这 样 的 跨 音 眉 成 份 算 进 去 ， 语 言 的 能 
指 就 不 宜 于 泪 作 是 线条 性 的 泰西 ,而 应 该 看 作 症 立体 性 的 东西 了 。 

索 继 尔 是 一 位 出 色 的 天 才 的 语言 理论 家 ， 他 是 各 一 其 实 的 现 
代 语 言 学 的 莫 基 人 ， 他 的 语言 学 说 ， 是 语言 学 史上 如 自 尼 式 的 革 
命 ， 对 于 现代 语言 学 的 发 展 有 着 深远 的 影响 。 现 代 语 言 学 的 每 一 
个 部 门 , 每 一 种 流派 ,都 直接 或 间接 地 受到 了 索 缮 尔 语言 学 谎 的 影 
啊 。 他 汤 说 的 语言 符号 的 上 述 两 个 特性 ,是 在 当时 的 语言 学 和 自然 
科学 发 展 的 水 平 下 提出 的 。 在 党 绪 尔 的 时 代 , 还 没有 电子 计算 机 ， 
数理 语 育 学 和 计算 语言 学 等 新 兴学 科 还 没有 形成 ， 语 言 学 主要 是 
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与 语言 教学 、 文 学 、 历 史 、 考 十 学 等 学 科 有 联系 ,在 这 种 情况 下 ， 
索 结 尔 当然 不 可 能 提出 那些 扩 有 在 电子 计算 宙 时 代 才 能 揭示 的 语 
言 符 号 的 新 特点 。 随 着 电子 计算 机 的 出 纲 和 发 展 ， 语 言 学 的 理论 
也 应 该 发 展 ， 我 们 谈 不 能 芋 守 陈 现 ， 注 足 于 旧 有 的 结论 ， 而 应 该 
站 在 前 辈 学 者 的 双 崩 上， 高 瞻 远 吴 ， 吸 取 电 子 计 符 机 自然 语言 信 
息 处 理 的 新 战果 ， 结 合 现代 数学 的 理论 与 实 晓 ， 从 新 的 角度 ， 用 
新 的 眼光 ， 以 新 的 方法 来 研究 语言 这 ~- 极为 复杂 的 符号 体系 。 正 
是 基于 这 样 的 认识 ， 我 们 觉得 ， 语 言 符号 除了 索 织 尔 所 指出 的 导 
两 个 个 尽 完善 的 特点 之 外 * 还 有 着 如 下 并 个 十 分 引 人 注 日 的 特 目 ， 

1 语言 符号 的 随机 性 ， 语 言 符号 的 出 现 和 分 布 规律 不 是 完全 
确定 的 ， 其 有 随机 性 ,这 一 特性 使 得 次 言 与 统计 数学 发 生 了 联系 。 

2 ,语言 符 号 的 完 余 性 ， 语 言 符号 之 间 彼 此 制约 ， 使 得 我 们 可 
以 根据 前 后 符号 的 关系 来 判断 有 关 语 言 符号 的 性 能 ， 这 样 ， 灌 言 
符号 就 明示 出 完 余 性 ， 这 一 竺 性 使 得 语言 与 信息 论 发 生 了 联系 。 

3 语言 符号 的 离散 性 :语言 符号 是 由 一 些 宙 散 的 单元 构成 的 ， 
具有 离 获 性 ， 这 一 特点 使 得 语言 与 集合 论 发 生 了 联系 。 

和 语言 符号 的 递归 性 ， 语 言 符号 可 以 反复 地 使 用 有 限 的 现 则 
构成 无 限 的 句子 ， 具 有 漳 归 性 ， 这 一 特点 使 得 语言 与 公理 化 方法 
发 生 了 联系 。 

5, 谐 喜 符 号 的 晨 次 性 ， 语 童 的 条子 并 不 是 由 各 个 单词 依 前 后 
的 线性 顺 岸 排列 而 成 的 簿 单 的 线性 序 界 ， 而 是 一 -个 有 尽 次 的 立体 
各 结构 * 具 有 必 次 性 。 每 一 个 句子 的 绪 性 序列 的 表层 之 下 ,都 隐 路 
着 一 个 屋 次 分 明 的 树 形 图 ,这 一 特点 使 得 谨 言 与 图 论 安 上 生 了 联系 。 

6, 语 言 符号 的 非 单元 性 语言 符号 并 不 是 一 个 泡 结 构 的 单元 
性 符号 ,而 号 个 有 结构 的 、 由 多 个 复杂 特征 构成 的 非 单 元 性 符 
号 ， 其 有 非 单元 性 ， 这 ~ 特点 使 得 语言 与 数理 逻辑 的 许多 演算 方 
法 发 生 了 联系 。 

ТШШЕН. сат ааа, НҢ 
ГЕТЕ Z. 


禁书 打算 困 绕 语言 的 这 些 特 性 ， 采 探讨 数学 与 语言 的 关系 。 
为 了 便于 不 同文 化 知识 结 攀 的 广大 读者 型 解 和 阅读 ， 写 作 时 尽 启 
做 到 深入 纺 出 ， 通 俗 易 履 ， 以 便 吉 起 允 数 学 和 语言 学 感 兴趣 的 读 
者 进一步 来 与 我 们 探讨 数学 与 语言 的 关系 这 一 个 问题 ， 产 生 抛 苇 
JLE MAE. 

近年 来 ,国内 外 在 用 数学 方法 研究 语言 方面 取得 了 不 少 成 果 ， 
本 书 力 图 反映 出 这 些 新 成 果 ， 所 引 材 料 均 在 脚注 中 说 明 ， 作 者 讶 
对 他 们 表示 感谢 。 

НАЕ И Р MAER, ТАНОВ Е, HAA 
不 受 或 错误 之 处 ， 敬 项 读者 指正 。 
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语言 符号 的 随机 性 与 统计 数学 


第 1 节 语言 符号 的 随机 性 


ЭЧКЕ ИРЕ РЕЖ ЖИПКЕ ЕИ ТОБИ ГЕШ Мр 把 
语言 观 象 分 为 言 诸 活动 〈langage) .言语 5parole? 和 语音 (langue) 
三 样 东 西 ， 它 们 之 问 是 彼此 联系 而 叉 得 互 区 别 的 。 

他 指出 ，“ 言 证 活 动 是 多 方面 的 、 性 质 揽 素 的 ， 同 时 跨 着 物 
H, ARORAA CEATA A BIRMA HAB 
我 们 没 法 把 它 归 入 任何 一 个 人 文 尘 实 的 范畴 ， 因 为 不 知道 怎样 去 
型 出 它 的 统一 体 。" 吕 “因此 ， 育 语 活动 的 研究 就 包含 着 两 部 分 .-， 
部 分 是 主要 的 ， 它 以 实质 上 鲜 社 会 的 、 不 依赖 于 个 人 的 语言 为 研 
究 对 象 ,这 种 研究 纯粹 是 心 弄 的 ， 芭 一部分 古 次 要 的 , 它 以 训 语 活 
动 的 个 人 蓝 分 , 即 言语 ,其 中 包括 发 音 ,为 研究 对 象 ， 它 是 心理 . 物 
BR D 

“把 语言 和 言语 分 开 ， 我 们 一 下 江 就 掀 (1) PATILA 


G ЖЛЕ, «ашан, РЕЖ, зод, 
@ Fd 8414. 
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么 是 个 人 的 ;C2) 什么 是 主攻 的 ， 什 么 是 从 属 的 和 多 少 尾 偶然 的 
SFERT 

Ej, ERE- PSS ДЕ BS SRA ВЕ, [ШШ 
РУ, RIKARE KERR, EER ERRES, 
竺 等 。 它 只 是 这 些 系 统 中 最 重要 的 。? 国 而 言语 则 “是 人 们 说 话 的 
总 和 "四 ， 它 包括 言语 行为 的 过 程 (也 就 是 交际 过 程 ) 和 言语 行为 
的 结果 也 就 是 日 头 的 或 书面 的 前 语 作品 )。 

索 钳 尔 把 诺言 比 作 乐章 ， 把 言 滞 比 作 演 类 ， 把 滞 言 和 并 语 的 
关系 比喻 为 乐章 和 演奏 的 关系 。 他 说 ， “在 这 一 方面 我们 可 以 把 
语言 比 之 于 交响 乐 ， 它 的 现实 竹 是 跟 演 奏 方 法 无 闫 的 ; RAZA 
乐 的 乐师 可 能 犯 的 洪 误 狗 不 会 损害 这 种 现实 性 。* 鲜 这 是 一 个 非常 
贴切 的 比喻。 

在 索 绪 尔 关于 语言 得 言语 的 区 分 的 理论 的 影响 下 ， 美 国语 育 
学 家 乔 姆 斯 基 提 幅 ， 必 须 把 说 具体 语言 的 人 对 这 种 诺言 的 内 在 细 
ТАЗ {В АЧЕН ИГИ ШИТ ЭЛЕ ЖОЛ Ж, АЧЕЙ ШИИТЕР ЕЛ 
(competence), 把 后 者 叶 做 语言 运用 (performance)。 我 们 认为 ， 
乔 姆 斯 基 的 语言 能 为 ， 大 体 上 栅 当 于 党 借 汞 的 语言 ， 乔 姨 斯 基 的 
ЖЕЕ, ЖЕЕП Р ЖЕЛИНЕ. 

ЖЕЕ ЕЭ МОН, ТТЕ ВЕТ ER ШИЕ ЕАО 
时 候 ， 有 的 语言 成 分 使 用 得 多 一 些 ,有 的 语音 成 分 使 用 得 少 一 些 ， 
各 个 语言 成 分 的 使 用 有 一 定 的 随机 性 。 当 一 -个 个 的 进言 成 分 在 话 
语 和 文句 中 出 现时 ， 有 时 它们 的 出 议 是 完全 确定 的 ， 有 时 风 是 不 
确定 的 。 如 果 我 们 根据 索 绪 尔 和 乔 姆 斯 基 的 上 述 观 点 ， 把 语言 先 
言 请 区 别 开 来 ， 那 么 ， 我 们 就 可 以 说 ， 耻 于 在 袁 语 中 请 言 成 分 的 
使 用 和 出 现 具 有 随机 人 性， 所 以 ， 我 们 可 久 采 用 统计 数学 的 方法 ， 


(Ç ж.ж, + 交通 滞 训 学 教程 y， 中 译本 ， ЗБ, 
@ Ф, 837—3, 

а HD, JHR 

E М, Жош, 


* 20 ^^ 


ЭЛТ ЖШН Z EE 和 和 语 e fki ЮЕ ЛЫ ТЕ. 
在 有 些 场合 ， WH 分 前 出 更 还 是 IN EHU. 倒 | 区 ,在 俄语 中 ， 
当 独 辅 属 处 于 词尾 停顿 之 前 ， 一 定 要 发 生 消化 的 现象 。 这 种 浊音 


清华 的 现象 是 完全 地 确 竺 的 。 
ceroco6( Jy Ú: 3——l [5роѕәр] һ-=р 
sakon E] )—lT [zavot] d-t 


nox{ 万 子 ) 一 一 [noj] КЛ 

MAATO, а, SERT HEGERE, t. fo 

HERRIE “MOBI APTE PER УД” ARA at, 
HRERL ARRIA AR SL RA BHF, ЖИА, 
我 们 订 忆 说， 当 实 现 了 条 性 组 “ 沫 辅音 处 于 词尾 停顿 之 前 ”时 ， 

SRE "MERI Ж, qha, МОКА Е, Nl 
象 地 说 ， 如 果实 现 了 荣 一 确定 的 条 件 组 S, 就 一 定 会 发生 与 之 相应 
的 完全 确定 的 事件 A， ШАКАБА ЖЕ. 在 语言 交际 活动 中 ， 
这 样 的 必然 事 御 是 家 为 少见 的 。 

站 语言 交际 活动 中 出 现 的 大 量 事 兴 并 没有 这 种 完全 的 确定 
性 ， 通 常 都 有 例 旬 。 枫 如 ,对 于 “ 雍 诺 中 书 词 之 前 弄 现 定 冠 遍 ” 这 
一 事件 4， 我 们 就 未 能 穷尽 地 找 出 单 习 开 确定 定 告 词 册 更 的 条 ЇЇ 
组 S。 因 8 此， 当 我 们 实现 某 个 条 件 纽 S 时 ，“ 出 现 定 和 窟 词 ” 这 一 事 
性 可 能 发 生 ， 也 训 能 不 发 生 。 

如 果 当 S = “和 名词 是 一 个 于 节 人 分 词 ” 时 , 我 们 可 以 在 Н 
“Spring has come” (ЖЖ ЖТ). AV HE Wg T, 而 在 “ 
the spring"( ртіп, URE ERRI e EEN 
jJ, WAH. ЗАЛЕ A- R Ba Ж E T BERRE. 

WAS = "Aie a gm i. RI 以 看 到 ， 在 Shang- 
hait Еф), Britain ә, John Brownlie i Rh, Ж 
ШЕЛ, mMøæthe Yellow River( 黄 河 )，the Baltic Sea ( 波 
ЧИРЕ), the pacifice Ocean 太平 洋 )、the Himalayas ($ $ 
рл, HOUSE iie 


* ?] ° 


si 实现 了 条 件 织 S 时 , 某 一 事件 A 可 能 发 生 , 志 可 能 不 发 生 , 这 
种 事件 叫做 对 于 该 条 件 组 的 随机 事件 。 

R PERRIS, MA TE ЕА, ЕЕ Ар ЛН 
ИЕК ЕЛЯ BU, ДЛГУ. Bl. ТАГ р, 
жт ане, WARD ННЯ ВЕЕ. АЖ E 
说 来 ， 语 言 符 号 具有 随机 性 ， 这 样 ， 在 交际 活动 出 现 这 样 的 随机 
于 件 全 是 很 自然 的 了 。 

正 因 为 语言 符号 具有 随机 性 ， 因 而 很 难 用 确定 性 的 规则 来 抽 
述 它 。 几乎 每 一 条 语法 规则 都 有 例外 ,这 种 例外 现象 使 得 研究 语法 
的 证 法 学 察 们 伤 静 脑筋， 有 的 语法 学 家 共 至 为 此 而 误 入 迷津 ， 以 
候 概 全 ， 得 出 了 错误 的 结 讼 。 为 了 避免 以 偏 构 全 的 错误 ， 我 国 前 
非 语 言 学 家 曾 提出“ 例 不 过 十 不 立 ， 反 例 不 过 二 不破” 的 原则 米 
制定 语法 规则 ， 这 个 原则 常常 作为 判断 语言 学 家 治学 恋 度 是 性 严 
道 的 准 强 。 其 实 ， 对 于 育 语 活动 这 样 随机 现象 来 说 ， 找 出 十 个 例 
子 来 立 基 条 语法 规则 并 不 难 ， 而 找 出 十 个 反例 来 破 某 条 语法 规则 
也 很 容易 ， 以 于 个 黄 子 或 十 个 芭 例 来 作为 某 条 语法 规则 破 或 立 的 
标准 ， 看 来 未 必 销 当 。 最 好 的 办 法 还 是 采用 统计 数学 的 方法 来 对 
交际 活动 中 所 出 现 的 各 种 语言 现象 进行 描述 。 如 果 我 们 能 能 从 再 
论 的 高 底 , 把 随机 狂 看 成 是 语言 符号 本 身 的 一 种 自然 特性 ,并 采用 
恰当 的 数学 工具 来 描述 这 种 随机 性 ,那么 ,我 们 对 于 诸 革 规则 中 的 
大 量 的 例外 情况 也 就 不 会 再 感到 迷 感 不 解 利 束 村 无 筑 了 ， 因 为 这 
些 例 外 情况 正 是 由 于 语言 符号 本 寺 的 随机 性 这 一 特点 而 形成 的 。 
事实 上 ， 在 语言 成 分 的 出 现 这 一 全 随机 事件 中 ， 随 机 事 {А 
与 条 件 组 S 之 间 虽 然 没 有 完全 确定 的 联系 ,但 是 ,它们 之 间 却 有 着 
统计 上 .的 联系 。 尽 管 当 条 人 性 组 S 实 现 一 次 时 ， 事 件 A 可 能 发 生 , 也 
TERRE. BE, WRAPS R HARRERA 
З ЛЕ, KARER ЫР АЖ E MR, D 
Ф ERA, WEMRA TAN Ц ОНЕ AA 
Ewet Baralu sin, Шур, УЛ ME 
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之 比 ， 可 用 个 面前 公式 表示 ， 
了 = n 
= д 


Hp, JERAR, nit Wa M, N 是 条 件 组 
5 的 实现 的 总 次 数 。 
例如 ， 在 英语 中 ， 当 条 忻 组 “是 季节 各 鹿 ” 实 现 504 次 时 ,在 
400 次 季节 名 词 前 不 带 定 冠 间 ， 那 么 , "季节 名 闻 前 不 些 定 舍 词 ?这 
一 -随机 事件 的 频率 为 ， 
ja n 400 


= = 0.8 = 809 
N 500 80% 


НБК ИР, MEBLE HA ЖЕ ШЖ ДЖЕЛ 
定 的 ， 有 时 发 生 的 关 率 高 些 ， 有 时 发 生 的 频率 低 些 ， 伍 是 ， 当 多 
次 实现 条 件 组 S 时 , 随 着 实现 次 数 的 增加 ， 随 机 事件 发 生 的 频率 越 
来 越 稳 定 于 一 个 强 定 的 值 ， 这 种 当 条 件 纽 S 多 次 实现 时 , 陆 视 事件 
发 生 的 矣 率 渐 趋 稳定 的 规律 性 。 与 前 面 所 说 的 完全 确定 的 规律 性 
ЖН, ЕЗТНЕ, 

例如 ， 在 翻译 中 ， 当 我 们 采用 权威 性 的 英语 语法 著作 中 关于 
定 冠 词 的 配置 的 规则 来 拒 汉语 译 为 英语 时 ， 我 们 在 定 冠 词 的 使 用 
上 上 有 时 会 发 生 错误 ， 也 就 是 说 ， 虽 然 条 件 组 S( 即 英语 语法 书 中 关 
于 定 冠 词 的 配置 规则 》 实 现 了 ， 而 事件 A ( 即 相 应 定 冠 词 的 选择 》 
却 并 不 发 生 。 但 是 , 当 我 们 把 这 样 的 规则 用 来 翻译 大 量 的 英语 资料 
时 ， 如 果 我 们 采用 的 英语 语法 著作 编 得 确实 好 ， 那 和 名， 我 们 会 发 
现 ， 在 天 多 数 请 部 下 是 能 正确 地 选择 定 冠 词 的 。 比 如 说 ,在 100 个 
场合 有 80 个 葛 合 选择 定 冠 记 是 正确 的 ， 那 么 ， 这 种 选择 定 冠 词 的 
ЭЙ, ИЖ ЛЕЙ И ЖЕЛ, 

令 人 可 育 的 是 ， 近 年 来 在 我 国 的 庄 法 研究 中 ， 不 少 语 法 学 家 
开 巡 认识 到 语言 符号 的 这 种 随机 性 ， 自 觉 地 采用 统计 数学 的 方法 
米 描述 汉语 语法 现象 。 
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НГ ЖГ КИНЕ a iq FW Op t, AER pekt 
语 是 在 蕊 记 种 结业 补 语 或 艳 向 神话 之 间 插 入 “得 ”或 “不 得 ” 构 
成 的 。 揪 入 “得 ”构成 肯定 形式 ,插入 “不 街 ? 构 感 否定 形式 。 例 如 ， 
гаа ——— а —— 0740 
进来 
Аата А НЕ, за 
жни, Ho HE ЖЕЕ К СА ЩИ. 
ERETT, CESR, EATR, FRERE EM 
“ФС ETF) 1 145 000 字 的 材料 仔 纲 地 作 了 统计 , 发现 这 种 
И и 形式 与 肯定 形式 之 比 为 1211:42。 否 定形 式 的 出 现 次 
肯定 形式 出 现 次 数 的 29 fs Q 
апан, жк араны RES PIP, — 
般 很 少 用 “不 能 + 动词 + 结果 补 语 〔 或 趋向 补 语 )” 的 语法 格式 ? 
而 采用 可 能 补 语 的 否定 形式 。 例 如 ， 
吸烟 的 害处 说 不 完 。 
* ЮЙ 的 害处 不 能 说 完 。 
@ 银 花 起 不 出 办 法 来 。 
* 银 花 不 能 想 出 办 法 来 。 
其 中 ， 标 月 “未 ”号 章句 子 是 不 能 说 的 。 
这 漳 的 语音 事实 ， 可 以 说 班 为 什么 这 -一 类 可 能 补 证 的 香 定 形 
式 用 得 远 比 肯定 形式 高 29 售 。 
当 用 “能 ”和 “可 以 ”表示 “主客 观 条 件 允 许 ” 欧 意义 时 ， 
KREERET DEHER., AA 
© ”小 明 一 口气 能 路 五 十 米 。 
МНА 可 以 跑 五 十 米 。 
但 在 检定 形式 里 主要 用 " “不能”"， 极 少 用 “不 可 以 ”例如 ， 
© ”小明 一 口气 不 能 跑 三 于 米 。 


也 剂 上 月 华 ，* 可 能 补 语 用 法 的 研究 *，(< 中 国语 文 ?)，1980 年 ， 第 3 期 。 
. 24 `. ` 
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统计 表明 ， 在 这 称 语言 格式 中 ,“ 不 能 ?与 "不 可 以 ?的 出 现 次 
数 之 比 为 14848。 这 8 例 * 不 可 以 ”, 均 出 让 文 过 色彩 较 当前 作品 中 ， 
根据 这 样 的 统计 ， 可 以 得 出 这 样 的 规律 :现代 汉语 中 一 般 只 说 “不 
能 ?， 它 的 出 现 频率 为 0.95。 

我 国学 者 还 办 统计 方法 研究 了 状 诺 中 用 “地 ”的 情况 。 根 据 
ERIE, PARRET, WAR ARPE, KAH 
“三 生 厂 3 以 及 :中 国共 产 党 中 央 委 员 会 关于 建 图 以 来 党 的 若干 历 
吏 问题 的 决议 * 约 437 000 字 中 忧 语 用 “地 ”的 情况 ， 发 现 描写 动 
作者 的 状语 大 多 数 用 “好 ?， 用 与 不 用 之 比 为 1158:66, 描 号 动 作 的 
“地 ”往往 可 用 可 不 用 ， 用 与 不 用 之 比 为 675 ;2273。 

ФП, 

© ”他 不 动 声 色 地 一 件 件 处 理 着 。 

在 这 个 句子 中 ,“ 不 动 声色 ”是 描写 动作 者 的 ， 故 用 “地 ”, “一 
忻 侍 "是 撕 写 动作 的 ， 故 不 用 * 地 ?@ 。 

根据 这 样 的 带 由 ， 我 们 把 描写 性 状语 分 为 搭 写 动作 者 的 与 描 
写 动作 的 两 种 。 

我 国学 者 在 六 窜 业 京 话 的 拟 志 词 时 ， 发 现 由 站 个 不 周 音节 交 
成 的 A ВС 了 式 的 拟 雪 词 与 双 音 节 拟 声 词 有 对 应 关系 。 例 如 


A B C DARJI DP SEL PE iil 
ША К ПД САС) 
ШАШКЕ (CD) 
ЙДЕ (BD) 
Y mm T (АС) 
мп (CD) 
TE (АВ) 
Б peg з (АС) 


© ЖА, RAAME ЛОМЕ, СОЛАНЕ) 
(1), #38. 
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Жш (CD) 

Пу я ЮЖ ССр) 
因此 ， 他 们 认为 ,ABCD 式 拟 声 词 是 由 双 彰 节 拟 声 词 变 来 的 。 
但 有 是， 究竟 ABCD 式 是 从 哪 一 种 双 音 节 形 式 变 来 的 ? 还 是 不 
同 的 词 有 不 同 的 变化 ? 为 此 ， 对 1 中 个 ABCD 式 手记 词 进行 了 统 
计 ， 发 现 这 101 个 ABCD 式 拟 声 词 都 有 相应 的 CDP 式 双 音 节 形 式 ， 
而 AC 式 、，BD 式 ，AB 式 等 双 音 节 形 式 出 少 得 多 。 统 计 结 果 如 下 ， 


3⁄1.1.1 
Ж = | ABcD 式 | АСФ | CD 式 BDR | ABK 
ж RB 101 39 | 101 18 Í 3 


这 样 的 统计 数字 证 明 ，ABCD 式 和 CD 式 之 间 的 关系 最 为 密 
切 。 大 部 分 ABCD 式 没有 相 度 的 AC 和 BD 形 式 ， 至 于 AB 形 式 刚 更 
少 。 因 此 可 以 认为 ABCD 式 是 CD 式 的 一 种 变化 形式 ， 而 不 是 AC 
式 或 BP 式 的 变化 形式 ， 更 不 是 4B 式 的 变 尼 形式。 中 

当 基 种 语 污 现象 有 不 止 一 种 意义 或 用 法 时 ， 如 果 不 通过 大 量 
的 语言 材料 进行 统计 调查 ， 贷 感觉 判断 而 仓促 作出 结论 ， 就 可 能 
忽略 掉 一 些 能 反映 重要 规律 的 现象 ， 或 着 把 有 规律 性 的 随机 的 语 
喜 现 象 错误 地 当 作 例外 加 区 处理 。 运 用 统计 方法 可 也 避 免 这 方面 
的 世 漏 ， 或 者 发 现 过 去 在 这 方面 的 牙 漏 ， 得 出 比较 客观 的 结论 。 

有 人 曾 研 究 过 俄国 诗人 普希金 dym), E ОШ + 
СТургенев) 7 т 《BysHnn》 的 诗歌 中 小 调 Bars 的 出 现 的 情况 ， 
在 这 种 研究 中 ， 条 件 组 S Б, А ЗИЧ, 
ФА = “Buri i”, 

当 条 件 组 S$ 实现 次 数 很 少时 ， 文 包容 量 为 10 个 户 ，Bare 的 出 
现 次 数 为 0，ERTE 区 出现 频率 当然 也 是 ， 当 条 人 级 5 前 实现 次 数 
ЖІН, АЈДЕ ЛОО, Быт зи, Быть 的 出 现 频 率 
720.030) М ПИС ЛЕ ЕП, ЗДЕР X, 


© RE Алса А D. СОА ШИ Җ (10), 981204. 
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Быть ЖЫЕН. ЕЕ ЕРО .0102: 41. Быть 出 现 
КАР {МЕ ИШ. ШЕТУ, 


1.1.7 

H 
хужа Í 10 | 100 1000 | 2000 | : 3000 000 | 5000 
я ЕИ 0 | 8 15 | 17 | En | 47 


к 0.000 | 0.030 10,015 lo. 2.008 | 0. ою, 0.008 0. 969 


1 6000 | 7000 Е 8000 | 5000 | 10000 ! Í 15000 | 40000 


ТҮГЕ 57 71 Td з 95 зз} 4186 


ШЕ 9.010 | 0.010 | 0.009: 0.010 0.010 0.020 0.011 


TIPE EPI ЗЕН Ж PS “ШЧ” ЫШ ЕУ ИЛО K 
其 出 现 频率 的 变化 情 误 。 在 这 种 研究 中 ， 条 件 组 3 = “汉字 文句 ?4 
ЖА = “的 ? 字 出 现 ?。 

当 条 性 组 $ 实 现 次 数 绞 少时 ， 文 名 容量 为 15215 个 汉 宝 多 的 ” 
字 出 现 776 次 ， 出 现 类 率 为 0.051;， 当 文 条 容量 为 80125 个 汉 宇 时， 
“的 ” 字 出 现 3365 次 ， 出 现 频 率 为 0,042 NRE 3 的 实现 次 数 
以 续 增 大 ， 文 名 容 时 逐渐 增 大 ,* 和 的 ” 字 的 出 现 频 率 越 来 越 稳 定 ， 
最 后 逐渐 稳定 于 .042。 这 种 情 闹 。 如 下 家 所 示 ， 

Ж1.1.3 


Е ú 15215 | 80125 Í 818528 1125370 [1429452 | 


ваа 776 те | 3 3365 | s3335 | wno | з | 220044 


出 现 闫 率 0.051 | 0.042 0.041) | 0.041 | 0.042 1 0.012 


ВЕТО Н, ЗКУ ЕН, ЖАГ. 
随机 事件 4 的 统计 规则 。 设 条 件 组 8 的 实现 次 数 为 +， 随 着 上 的 增 
天 ， 随 机 事件 入 的 册 现 疾 率 / 工 趋 稳定， 当 ! 一 < 时 ，7 就 越 近 于 一 
TER AA EERI EARR E, Ar H 


в 27 à 


гыи P 
limf = lim =p 


Ада, ШТ ЖАМ, ВУНЕ д 

ТЕЎ, НАРО], En 
tapal 

如 果 p = 0， 则 随机 事件 是 不 可 能 事件 。 

如 果 B= I， 贡 随机 事件 就 变 成 完全 确定 的 事件 ， 部 必然 事件 
了 .可 见 , 必 然 事件 只 不 过 是 随机 事件 当 p = 1 时 的 一 种 特殊 情况 。 
所 以 ， 在 语言 交际 活动 中 ， 语 言 成 分 的 出 现 不 论 是 完全 确定 的 也 
好 ， 不 完全 确定 的 也 好 ， 都 可以 看 成 随机 事 人 性 。 如 果 是 完全 确定 
的 事件 ， 那 就 可 以 是 随机 事件 当 p = 1 时 的 一 种 特殊 情 次 。 正 是 在 
这 个 意义 上 ， 我 们 才 把 语言 符号 的 随机 性 看 成 是 语言 符 叶 的 一 个 
普遍 性 质 。 


第 2 节 ” 字 频 和 词 频 的 统计 


日 前 进 界 上 的 庄 言 共有 2500 积 至 3000 积 。 其 中 美洲 语言 多 流 
1000 多 种 ， 非 洲 语言 也 还 1000 种 。 语 言 货 用 人 人 口 超过 100 万 芍 具 有 
i140 种 。 泪 中 ， 使 用 汉语 的 人 最 多 ， 鼎 世界 大口 的 各 5 ,其 次 是 英 
语 ， 约 3 亿 人 口 ! 再 次 是 犀 语 、 西 班 环 语 和 印 地 语 。 使 用 上述 这 
五 种 话 吝 的 人 闪 吉 世界 人 口 的 4%， 再 加 上 使 用 日 证 。 德 语 ， 阿 
HER WETE ARRAIA, BERANA% 

在 世界 上 这 么 多 的 语言 中 ， 有 的 语言 没有 书面 形式 ， 具 有 口 
头 形 式 。 书 面 形式 的 语言 要 亲 文 字 来 记录 。 当 今世 界 的 文字 ， 者 
的 地 区 用 汉字 ， 有 的 地 区 用 字母 。 

由 汉字 必 正 式 文字 的 国家 有 中 国 . 日 本 ( 充 字 假 名 混合 使 用 )》、 
彰 鲜 (北方 全 用 谚 文 ， 南 文 汉字 谚 文 混合 使 用) 和 和 新加坡 (同时 
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ы, ПОТОКА РА РР). 
ЕАО Spie EA 
去 了 地 球 的 一 大 半 . 吕 
分 布 最 广 的 多 国 通 用 字母 是 拉丁 字 坪 ， 叉 叫 罗马 字母 。 殉 洲 
的 天 部 分 、 美 洲 和 澳洲 药 全 部 、 非 洲 的 天 部分 和 亚洲 的 小 部 分 ， 
ЖАТИ ЕАО УК. МОНТ Я, ЗЭ Е 
ЖП ЧЁ ТИГИНИ ЫЛ}, Ра А rh ЙЫ: ЛУАРА B; 
кокте, ЛТ ЗА К 
PLE, MIRE. ЧЕЙҢШОН hay, ОАЕ 
ЎН Л, PE p {Д Г Э ОТЕТ ma Bi А А ДАЕ ATRA ЗЕН, 
РАТ е АРУН ЛФ ТЕР, з О ЖЕ КАНЕ Н SE i 
的 拉丁 字母 文字 OE, ТЕК, МТРА), ШАНЕЛ 
ТУЧИ, PDH, ТЕЧЕ JERAN КАЕТ uw Ht 
KE МИНУ ТЕЗТЕЗ E. ШШ, Їр 
EEE, G oku up. ЗЕНИТ CAREA ESE ЗЕ), 
By PZ Ый А ДАГ НИН ЗШЕ, ЕАУ phi E 
Вр. ФИ КЕЛЕ ДЕЗЕ АЕ е JL BT AEREE. Ak 
Ы Ж {н УИ КАН, ДИНГЕ {ДТ ЕЛЕ KS, Т 
PH Еа, анн. ттк, 
ЕЕ Ж Eh. ВЕЧНА КВИ 
Ўр С kiy GEP RE k t У НТ ap Е 
Ж, ВЛЕЕ ag. ASERS. ЕТ. ЕТ Эе CGE 
ЕТӘ, ВЛ St Bd ЯУ ТЕО, 
ИХ ph; BTM BE BZ, ТОЛЕУ К. ЕА 
ВИША ЧЕ Ep, рО Ш ОВ с е, КАЕ ОНОН Н. EJ 
ТЕАТРА СНОН 5, Бра 


МЕ, жі. МАЙ, A. PW ЙУ, НИЕ ЛОР Ai 


C НЭС, ex TERSA BID ЧЫЙ ЛУ», Са рэ), 19884, 
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©, Ж, gn, ЮЛ), 

此 外 ， 一 国 或 一 亏 区 狼 亲 的 字母 主要 有 ， 35 AS КЕС А, 
着 伯 来 字母 【以色列 ) BATEE) EAFA eE, ea 
RUTI SRED Ер ОН ЕГА Н 80), 

Жи Kaspapa, ЗЕ ЕНДЕР Ж. ЭРТ: ЛАВЕ 
BERRE ТЕЛ Жр Е. АЙЕ T HER ERIE. 
181%3000 ЖДЕТ , h TŠ Н 0 Б Ж ЗЕ ДЕЙ t ТЕЛ ДЕЛИ. КЕПЕ] Ж 
жен И зе ДД] САеНтіс) 写 玫 9 世纪 的 * 拉 Т 
>Ш, шј УТ Wei АК a. laaya Д 
神甫 Cabsé de PEpée) 制定 了 一 份 以 1800 个 词 为 一 个 阶段 、 三 
个 阶段 共 5400 个 词 的 词 表 ， 用 于 天 哄 儿童 教学 。 词 表 的 制定 是 言 
语 统计 的 一 个 击 老 部 门 ， 用 统计 方法 编制 词 表 ， 可 以 从 语言 现象 
的 晤 的 描述 得 出 质 的 评价 。1898 年 ， 德 国学 者 凯 定 (F.W. Kae- 
ding) 搞 制 了 世界 上 第 -- 部 频 闪 词典 x 德语 频率 词典 ; ,这 部 频率 词 
典 的 编纂 是 建立 在 大 量 的 词汇 统计 工作 移 基 础 之 [的 ， 其 目的 在 
于 教授 可 记 学 ， 创 造 新 的 速记 方法 。 

二 十 世纪 以 来 ， 随 着 国际 交流 特 日 益 频 繁 ， 人 外 语 教 学 得 到 了 
莲 过 前 发 展 。 备 国语 言 学 家 纷纷 从 求 为 语言 教学 服务 的 基础 词汇 
宕 的 研究 和 制定 工作 。20 世 纪 前 70 年 间 ， 单 是 德语 词 表 就 至 少 有 
60 种 以 上 ， 而 英语 和 法 诡 词 表 的 数目 也 不 会 少 于 此 数 ， 西 班 牙 语 
词 表 和 盘 请 词 者 也 很 多 。 仪 这 5 种 隐 洲 语言 的 词 表 ， 就 有 三 、 四 
百 种 之 多 。 许 多 词 案 都 是 在 词汇 统计 的 基础 上 制定 的 。 

1949 年 ， 法 国学 者 米 谢 阿 (R, Michéa} 提 出 要 建立 词汇 统计 
学 ， 他 认为 这 将 是 “一 门 年 轻 而 富有 前 途 的 科学 ”"。1954 年 ,法 国 
学 者 基 罗 (Р. Guiraud) 根据 文章 中 词 的 频率 分 布 所 出 了 词汇 下 
富 度 的 梳 念 ， 他 叉 于 1960 年 出 版 了 :统计 语言 学 的 问题 和 方法 3 一 
P. EAAS (R. Hartmann》 认 为 语言 现象 的 统计 研究 
可 以 呵 做 “语言 学 中 的 统计 方法 "， 又 可 称 为 “ 闻 汇 频率 研究 ”。 
1956 人 第， 英国 统计 学 家 替 尔 彤 〈G. Herdan) 发 表 了 :语言 是 选择 

. 30 = 


ЯА» Language as Choice and Сћапсе 一 书 , 系 统 地 总 结 了 
语言 现 彰 统 计 研 究 的 威 果 。1565 年 ， 礼 国学 者 凯 尔 (BR. D. КеП) 
把 词 颍 往 计 和 现代 统计 学 结合 起 来 , 手册 了 "词汇 计量 学 
《iextcometricy 。 

ЖЖ ЖИИ ИИ ОСА ИИИЙ, ТИГИ ЩН РВЕ 
语言 现象 的 统计 规律 ， 都 应 该 属于 “言说 ”的 范畴 ， 因 此 ， 许 多 
学 者 又 把 这 祥 的 研究 称 为 “言语 统计 ”。 

近 30 年 来 ， 由 于 在 豆 语 统计 中 广泛 地 采用 电子 计算 机 ， 逐 渐 
地 改变 了 手工 查 频 、 手 工 统 计 的 方法 ,提高 了 统计 的 就 率 和 精度 ， 
把 言语 统计 的 研究 提高 到 了 一 个 新 的 水 平 。 苏 联 拉 联 维 亚 关 和 国 
科学 院 详 更 和 文学 研究 所 数理 语言 学 实验 室 ， 运 用 电子 计算 机 半 
现代 拉 肯 维 亚 请 的 词汇 、 构 词 和 形态 进行 了 大 规模 的 音 语 统计 ， 
分 折 了 120 万 词 的 资料 ， 疾 出 了 四 卷 本 的 :拉脱维亚 滞 倒 序 频 率 启 
睦 ?， 对 各 词 、 形 穿 词 、 动 词 的 后 缀 作 了 统计 描述 ， 沙 出 了 每 个 
后 级 的 总 频率 数值 及 其 在 各 类 文章 由 的 分 布 清 况 。 该 实验 室 还 用 
计算 机 对 词类 、 词 区 的 范畴 及 形式 进行 统计 挡 述 ， 计 算 了 不 同 词 
类 在 各 类 文体 文章 中 所 下 的 让 分 比 ， 这 样 大 疯 模 的 家 证 统计 ， 是 
候 统 的 手工 统计 方法 很 叭 做 到 的 ， 充 分 地 显示 了 电子 计算 机 对 言 
语 统计 的 巨大 威力 。 

言 衣 统 计 的 一 个 恒 了 发 目前。 是 为 词 玫 的 市 定 提 由 统计 方面 的 
和 根据， 因为 既 要 制定 词 表 ， 就 必须 选 训 。 不 迹 词 ， 词 表 的 制定 就 
无 法 进行 , 先 记 标准 有 两 类 :一 类 是 主观 标准 ,一 类 是 客观 标准 ,人 D 

主观 标准 也 叫 经 验 标准 。 词 器 章 编 制 者 根据 个 人 前 学 识 、 经 
驻 和 和 兴趣、 来 判断 闻 表 中 应 该 收 导 些 词 ? 不 应 该 收 哪些 词 ? :历史 
ААА а. ОД ЗЕ ТЬ Арт ЕЈ Е ВО 

ЗОЗ КАЯН, ЖЕР (С. К. Osien AUER. 


б ARR GEER АСОИ ОН SE, СОЕ Тэ), 1983 
F, 138, Жао, 
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R. Richards) VERSHA E S RE T “3 H a Basie 
English) 1] „ K£ ER aso КЕИ ДАН], ШИН, АЖ 
用 这 850 个 单词 ， 就 可 以 给 证 言 中 的 一 切 词 下 定义 ， 从 耐用 这 850 
个 数 代 有限 的 单词 来 表达 人 类 思维 活动 的 ЫР. 

主观 的 选 词 标准 根据 前 是 专家 的 经 验 和 断 判 方 ， 如 果 专 家 水 
平 很 高 ， 他 们 提出 前 选 词 标准 诚然 也 有 其 可 取 之 处 。 不 过 ， 人 们 
惕 倾向 于 使 用 窜 现 的 选 词 标准 。 因 为 客 驶 的 选 词 标准 是 根据 言语 
统计 的 方法 得 出 来 的 ， 统 计 结果 泵 以 个 人 的 意志 为 转移 ， 这 样 制 
定 出 求 的 词 表 才 会 有 较 高 的 科学 价值 。 

人造 今 发 现 的 客观 选 词 蒜 淮 ， 除 了 类 率 之 外 ， 还 有 分 布 率 、 易 
ЮЕ, ИЖ, EIR, BAES., ШЕЮ ШКА, Ш 
ЖЖ, ЯА НЕ. ТТА ИДИ ШИЙ, 

《1) ЖЕ ЖВНШДЕП ЖЕЕ ЖЕТИНЕ T {ЕЕ WASI 
Se ЖЕЕ О ЕИН ЧА] а y Ea EA T OB] - Ph 23 ИЕ 
Ж, ЖН АС ЕЕ ШШЕ ТОТО СЬ, E 
СМЕНЕ то д ЧАЈ С, MECEL 310777 个 诗词 。 这 
些 材 料 主要 取 自 报刊 杂志 ARERIO 等 14 个 不 同 的 售 
域 ， 从 中 抽取 了 出 现 次 数 在 4 次 以 上 的 不 同 词 共 79716 个 。 全 部 这 
计 工 作 甫 乎 工 方式 进行 ， 动 员 了 5000 名 速记 人 员 和 8&00 各 人 台 作 者 
参加 。 

《德语 频率 词典 的 编制 为 德语 基 淹 词汇 的 研究 打下 了 良好 的 
基础 。 凯 定 搜 集 的 词汇 材料 内 容 比 较 广 泛 ， 各 部 分 内 容 航 比例 也 
ERR, AHER- EHRE. | 

BÆ, ОКНЕ ЫШ Ж. РАЗЫН ВУНЕ B GB ПИЙ. 
ТОВ BE AS ҖЕШДЕРГЫИН, ЖА, ВЕ, ШАШ 
出 现 频 率 是 0.020， 词 了 的 出 现 频率 是 0.018， 如 果 词 上 只 在 一 篇 
BEERA HAX ABENE REHA RARAN, EHe 
ARAS Н, R HBAR ЕЕ ШАШ, ЇН ЕТЕ Е 
ЧОДА ida 广泛 得 和 多。 可见， 频率 有 内 会 掩盖 事物 的 真相 。 
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法 国学 者 基 罗 在 谈 到 频率 的 相对 伍 时 指出 : "整理 一 批 300000 个 
词 的 语言 材料 时 ， 词 表 超 过 第 500 个 词 以 上 ,得 出 的 结论 就 不 再 可 
ЖЕТ, 有 1 6090000 什 词 ， 才 能 定 出 一 张大 约 1 0004168) D5i6] Ж 
而 一 张大 约 有 2 000—3 0004048 ЖЕ BE 15 000 009 个 治 的 样本 
作为 基础 ,*@ 

(2) 分 布 汐 标 准时 代 的 不 同 ， 地 域 的 不 同 ， 材 料 长 度 的 不 
同 ， 材 料 篇 数 的 不 向 ， 少 料 是 口头 语言 还 是 书面 语 痢 ， 这 些 因素 
者 会 影响 到 语言 材料 艾 办 容 ， 从 而 全 得 我 们 不 能 只 以 频率 标 词 作 
为 选择 词汇 上 的 崔 一 标准 。 

一 个 词 在 一 定 篇 数 的 语言 封 料 的 样本 中 毕 现 在 和 多少 箱 数 中 ， 
也 是 衡量 该 词 重 要 与 否 前 标准 。 这 个 标 淮 ， 岂 柚 分 布 率 (Tange) 
标准 。 

MH r 0 Л (E. Varder BekeyF1535#F P ЖЕТЕ i 
Ўро, Ж ҮДТ ЗЕ ОШ ЖЕШТИ ЛШ КАЕН КЛЕ 
ЖИЗ. AAJ TETE 1 100 000 Lt. МА EOS 
10 000 局 ， 实 际 上 平均 为 13 000 181. 88 PEBE, ЖЫГУУ, И. 
下， 小 说 、 故 事 基 34 篇 ， 剧 本 12 篇 ， 占 总 词 沪 量 的 56.1 外 。 选 讨 
时 以 分 布 率 为 主要 标准 ， 其 次 闭 演 在 频率 标准 。 贝 殉 认 汐 ， 一 -个 
词 如 困 有 五 信和 作家 各 用 一 次 ， 也 比 另 一 个 只 被 一 位 全 家 使 用 十 次 
的 词 获 重要 。 贝 克 的 统计 工作 也 是 手工 进行 的 ， 历 时 几 近 一 征 。 
所 统计 的 88 管 材料 著 收 不 同 的 词 19 253 个 ， 词 震中 只 收 分 布 率 指 
数 汶 5 以 上 的 词 ， 闪 6067 个 。 分布 举 措 匆 在 5 以 十 的 鹿 有 13186 
个 ， 占 总 词 数 的 8.5%， 尽 营 其 中 有 有 些 共 频率 很 高 ， 只 内 分 布 率 
指数 在 5 以 下 ， 也 被 淘汰 了 。 

ЕЕ 27: ЕНЕ. жй ЫЙЫН. ЖЫ, АВ 
BIER ЫШ ИЖЕ ТЕЕ k ER ЙЕ АСТАНЕ Т ЕИ. ШЫП 
WS, ЗАВ ЛЕ Кр А. ЕШШ ЗЕ ШШ СС. Muller) 


Т F. Guiraué,Problëmes et méthodes de la Statistique linguisti- 
qre, p153-156- 
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В ШЛУ р Ул оне, 那么， 频率 
概念 的 价值 是 不 高 的 .中 

(8) БРИНЕ TERERAA ЈА БАЯ, ЛЕН 
乍 活 中 十 分 有 有 用、 但 它们 表现 出 来 的 频率 和 分 布 率 都 很 低 。 如 果 
只 根据 频率 栋 准 和 分 布 率 标 准 来 选 词 ， 屠 各， 这 些 十 分 有 用 的 具 
休 和 名 词 就 会 被 忽略 了 。 

这 些 具体 各 词 的 频率 和 分 布 率 时 不 高 ,但 它们 随时 都 龙 使 用 ， 
一 有 需要 便 立 即 在 脑海 中 出 现 。 国 此 ， 堂 煮 们 提出 了 选 词 的 第 三 
个 标准 一 一 易 联 想 性 标准 (availability)。 最 旱 提 出 易 联 想 性 标 
准 的 是 法 国学 者 米 谢 阿 ， 他 指出 ,“ 易 联想 的 词 频率 并 不 特别 高， 
但 是 它们 随时 都 能 使 用 ， 一 育 需 要 醒 立 即 在 思想 中 出 现 ,” 鲍 

易 联想 性 按 主 是 玉 进行 调查 ， 被 调查 痢 就 菜 个 主题 写 出 他 景 
先 联 想到 的 那些 词 ， 于 从 搜集 到 的 全 部 易 联 想 词 中 ， 按 闫 率 选 出 
ТЕНИ | 

ФЕТ ЕЖЕ ТТЛ РАЖ (G. Gougenheim)、 米 谢 阿 ,里 好 克 (P。 
Riven), AEA. Sauvageot) 采用 了 易 联 想 扯 标准， 于 1954 
年 完成 了 :基础 法语 并 Frangais fondamental) Wz. 

:基础 法 语 * 词 表 的 研制 ， 由 法 国 或 府 提 供 经 费 ， 委 托 洲 名 学 
沉 合 作 进 行 ， 并 专门 设立 了 “基础 法 语 研究 中 心 ”1959 年 改名 为 
“法 语 传播 研究 中 心 ”, 现 在 是 常设 机 构 )。 词 天 的 调查 工作 从 50 年 
民 初 期 开始 ，1954 年 了 月 出 版 :基础 法 语 ?，1956 年 出 版 :基础 法 
诸 的 制定 ?一 书 ， 竹 明 : 基 础 法 语 ? 制 定 的 原则 、 方 法 和 过 程 。 

基础 法 语调 查 在 现场 采 录 了 163 篇 访问 材料 、 访 问 时 ,了 考虑 
Жый EREK. ФЕ, ЖЕШ, ТИТЕ ЕТА ЗЕ» ЖАРЫЯ 
其 包括 312 135 个 词 ， 不 闻 的 单词 7 895 个 。 

1 C. Muller, Quelques mšthodes d'analyse du vocabulaire, pi gd. 

T R. Michéa, Limitation et sšelection du Vocabulaire dans lè- 


nseignement octif des langues vivantas, Revua de isngua viyantesy, 
No 22, ріб?. 
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«ЖОЕ EE AR SE ИК, ¿yh ЖЕТИ ЖК УЕ = Yñ Cu 
ЕҢ ЖАН Ил, M79940 R НЧ ñq Н Ж Hh 200 Pl E J 
1]10631, Н И, АТТ НИСА р, XG P| 
ЗЛЕ а НЕ, ТЛА ИЖ д, MA10634- 38] АСА 
ЖИ Ж, 9 FD 3 ЯОЙ, РИО TAi 
正式 词 表 。 

第 一 步 ， 从 1063 个 词 中 融 取 出 现 次 阁 29 次 以 上 、 分 布 率 指数 
5 以 上 的 词 , 以 淘汰 频率 不 二 分 高 以 及 那些 由于 企 然 原 国 而 导致 高 
频率 的 词 。 这 样 ，1063 个 词 践 少 到 805 18), Ж, ЖАРИ 
104 个 被 认为 不 宜 于 进入 基础 启 开 的 词 ， 如 “ 俗 词 ”等 。 这 样 ,只 
剩 于 701 个 词 ， 这 些 词 是 根据 绝对 频率 和 分 布 率 指数 西 个 标准 选 
出 的 。 

第 一 步 ， 在 701 个 词 的 基础 上 ， 进 一 步 害 充 易 联 强 词 他们 所 
9 一 12 岁 的 小 学 竺 分 成 若干 组 ， 就 16 个 “主题 ”来 调查 易 联 想 鹿 ， 
16 个 主题 中 的 前 5 个 主题 是 ， 身体 部 位 ， EE, 1:5, ЖН, R 
WAH. ЗА ЗЕЕ ВЕУ ШЫ КЕШЕ 382048 
Ai. ТТАР Е ЕК1] ЖЕЕ ЖЕРЕ E ë H Hh А БИО], 
НШ ЮВ 08]. Juss KARTI ЖУЗЕ A ЖЕН 701 个 
词 中 ， 共 得 1475 个 词 。 

在 * 基 础 法 诸 ? 词 表 的 1475 个 司 中 ， 袖 词 有 1222 个 ,虚词 洗 253 
个 。 实 词 中 ， 和 名词 有 6592 个， 占 46.9% ,其 中 大 部 分 是 以 易 联 想 记 
入 选 汐 具体 名 洞 ! 动词 有 339 个 , 占 22,9%。253 个 虚词 占 17 .1%。 
与 原 米 频率 词 表 中 的 1063 个 词 相 比 较 , 名 词 从 395 个 增加 到 892 个， 
记 占 的 百分比 从 27 .10 中 工 升 到 46.9 距 。 和 具体 名 词 数量 的 增加 ,使 
得 整个 词 表 中 各 种 词 的 比例 更 加 合理 。 

ЈАРЕ АО Е, ТТЕ ЗВ ВОКА, р 
ЙА С a RAR ARA 2 325 ИЕ 6, EnA 
MR В Е ЖЫН, 8 Tik W FEE M Г., 

另 一 个 有 代 郑 性 的 工作 是 美国 普 菲 费 尔 O. A. Pfeffer) E 
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持 的 “基础 德语 "(Gruaddeutsch) 1], 

普 非 强 尔 主 60 年 代 从 德 困 到 美国 ,在 美国 有 关机 构 的 裕 助 下 ， 
成 立 了 基础 德语 研究 所 ，1964 年 ， 发 表 了 * 基 础 德语 (口语 》 词 表 
СЕВО». 

普 菲 费 尔 从 德国 、 奥 地 利 、 瑞 -1 等 国 的 德语 区 挑选 了 70 个 城 
іл 001, WO 6000004859 828, MAE Лор, SE 
有 有 关 主 题 选取 了 833 000 A i E 5 ОН] l ДЫ d: BJ T Bi 
池 ， 分 布 率 利 萄 联想 性 三 项 标准 ， 甫 理 山 一 份 1084 个 词 的 启示 ， 
又 根据 经 验 加 上 作者 认为 非 如 不 可 的 185 个 , 编 成 包括 1269 个 词 的 
«ЗА >, 

ЖЕНГО 00. 9—0 АХ ИЕА ҖЫТН 3k 3 a 
МЕ, ЕНК S K ГАО, АТН СК Р КГ B 87374. É 
ЎР yK Ana]. 15—16 фт] 5 Дей 25 1 Е S ФӘ 1], 
ИЖЕ ЖЕТИЛЕ РА ПЖ АН АЈ, АНД ДАУН ЖЕЕ k. ШИК 
数 在 L100 次 以 上 的 易 联 想 词 347 个 ， 前 后 两 步 共 得 单词 1084 个 。 第 
三 步 是 根据 作者 的 经 验 补 选 185 个 词 ， 吉 表 中 有 “太阳 ”， 就 补 先 
“月 范 " 稻 “ 昆 星 ”等 。 这 155 个 词 有 3/4 已 直接 或 间接 地 在 产 率 启 
表 和 易 联 想 词 中 出 现 过 ， 真 正 根据 经 验 加 进 的 词 不 是 50 个 。 

1970 年 ， 普 菲 费 尔 出 版 了 基础 德 语 〈 蝇 语词 瑚 《中 级 B 
BOn” ЖЖЕНИЕ НИЕ (口语 ) 词典 y。 

АЕА а ЗАТЕ 100072: 35, ЕВ ҮЕ НЯН ИНИ 
PHE AERC A P ЙЕ Ф З ПЯ CR. Lagane) A 
D AURE ТА Са 20100045) 25. MEHRA 
HZ AS YD AB3MODBO8 ЕЗИ ЖЕКЕ ri ЖЫ ЖЕШ КЕШ, E 
ХАО, ME, RITET ER EKRIR. 

我 加 是 使 用 汉字 的 国家 ， 因 此 ,我 图 学 者 在 词 表 方面 的 研究 ， 
是 从 汉字 的 频率 统计 开始 的 。 


DD R.Lagane, De la notion de vocabulaire essentiel, «Grand 
Lorousse de ta longue frangaises, Tome IL Lx x x11—1L x x x 111. 
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设 宁 是 - Ak E, HAS t RS, HE АРИП 
BRAR, ETEB, MERRESSA, P MENES 
4, EKKE A, MAFRA, PAEA ЖУ 
Тро, REFA, WEERA HES 184 E, 
ШР OF ЕУ, ЕНЕНЕ Н. 

А, ОАА АВ И Т А ЗУ, HUY 
音字 9352 个 ， 异 体 字 1163 个 。 党 朝 虽 居 绢 管 的 < 全 林政 这 12821 
个 。 南 北邮 辐 时 主编 车 的 : 玉 第 :5， 政 字 46917 个 ,未 朝 际 党 征管 绩 
落 的 :前 ?3， 收 字 26194 个 ， 了 了 度 等 篇 此 的 : 集 韶 ?, 收 祁 53525 个 ， 
王 泊 等 编著 的 :类 编 ?， 收 字 5316j 个 。 朋 朝 梅 雇 祥 编著 的 : 字 宙 .*， 
Ш 33179 个 。 清 草 陈 廷 艇 等 纲 著 的 :< 康 罗 宇内 ?， 收 字 47045 个 
《增补 前 为 42174 个 》。1915 年 欧 好 汝 在 等 编 芝 的: 中华 大 字 — 典 ?, 收 
字 48000 多 个 ，:339 年 日 本 诺 桥 微 次 编 著 的 :大 汉 和 和 巷 典 ?>， 政 字 
4956t 个 ，1971 年 张 其 南 主 编 的 :中 文大 套 旺 :， 收 宝 19888 个 。 随 
游 时 代 前 推移 ， 字 典 中 所 收 的 字数 越 来 越 多 。 最 近 开 始 分 册 出 版 
的 汉语 天 字典 ?， 记 收 的 字数 将 组 过 56000 字 。 可 见 ;汉字 确实 吓 
一 个 相当 磺 大 的 字符 集 。 

我 国 时 在 20 年 代 就 开始 进行 汉字 的 频率 统计 ， 汲 字 的 频率 叫 
WFH. ВТА НЫ ТТ АИ, н ЫР 
ИЕ В Ир СТГ Е Ж ENTAR Е КЫ 
УКУСУ ЕГ», P124. PiE 0782 БИИ 
型 版 。 陈 书 前 有 :绪论 s:， 手 述 “ 中 文 应 用 字汇 ” 兽 有 多 种 ， 其 中 
包括 克 仑 茂 (Pastor Р. Kronz》 的 研究 和 他 自己 编写 前 :常用 站 
千 字 菏 *。 陈 移 雁 做 入 两 次 统计 ， 第 一 次 统计 项 用 六 种 材料 包含 
55t478 个 汉字 的 语 料 ， 得 不 同 没 字 4 2614; 第 二 次 使 用 34 818 个 
汉字 的 说 料 ， 得 出 与 4 261 字 相 异 的 不 同 没 字 458 个 。 第 二 次 统计 
所 得 成 淋 绩 于 火 ， 在 语 体 文 应用 字汇 3 中 印 出 的 只 屁 第 一 次 的 统 
计 成 果 。 

陈 乱 瑟 用 的 语 料 分 六 类 ， 
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LJE P: 127 293%; 
2. 报 刊 《 以 通俗 沪 刊 为 主 )，153 344 字 # 
3. 妇 去 杂志 :90 142 字 # 
4. 小 学 生 课 外 作品 ，51 807 字 # 
5. 古 今 小 说 ，71 267 字 3 
6.328238, 60 625 字 。 
书 求 附 有 “字数 次 数 对 时 表 ?”, 即 按 汉 字 的 绝对 频率 排列 的 字 
我 国 著名 教育 学 罕 陶 行 知 先生 为 * 话 体 文 应 用 字汇 ү 
育 。 序 言 中 说 ,“ 他 们 《 指 “ 近 民 教 育 家 ”) 对 于 一 门 一 门 的 功课 ， 
甚至 一 篇 文章 ， 一 个 算 题 ， 一 项 运动 ， 都 相依 据 日 标 去 问 他们 的 
AH. ТТЕ ЗТ Д, PERNAH. vee 到 了 后 来 他 们 
连 学 生 学 的 字 也 要 审查 起 来 了 ,学生 现在 所 学 的 字 , 个 个 字 都 是 有 
用 的 字 玛 ?自从 这 个 问题 发 生 就 有 有 好几 位 学 者 开始 研究 应 用 字汇 。 
我 国 方面 也 有 几 位 先生 研究 这 个 河 题 ， 其 中 以 陈 粒 雍 先 年 的 研究 
为 最 有 系统 。 人 好 和 他 的 助理 九 人 先后 费 了 二 玛 年 工 天， 检查 了 儿 
十 万 字 的 语 体 交 ， 编 成 这 册 * 灌 体 文 应 用 字汇 3。 该 册 报 告 未 村 印 
以 前 已 经 做 了 :平民 千 字 课 3 用 字 的 根据 。 将 来 小 学 课本 用 宇 当然 
也 可 以 拿 他 来 艇 一 个 很 好 的 根据 。 虽 然 不 能 十 分 完备 ， 但 我 想 这 
本 字汇 对 于 成 人 及 国民 教育 一 定 是 有 很 天 的 贡献 的 。”@ 
1946 年 8 月 ， 四 川 省 教育 科学 院 根 据 际 乱 琴 的 < 语 体 文 应 用 字 
汇 : 独 杜 佐 周 、 薪 成 前 的 :儿童 与 成 人 常用 字 沪 之 调查 与 比较 ?, 按 
照 两 种 字 囊 相 加 后 绝对 阁 率 的 多 少 ， 选 出 最 常用 的 字 2 000 个 , 编 
成 5 常用 字 选 ?。 上 述 两 种 字 表 统计 语 料 的 总 字数 为 775 833 个 。 
新 中 国 成 立 后 ， 国 内 不 少 单 位 用 于 工 做 过 毛泽东 选集 * 用 字 
统计 。 据 云南 冶金 第 三 矿 统计 ，< 毛 泽 东 选集 ;1 一 4 卷 简体 普及 本 
用 字 总 数 660 273 个 ， 使 用 不 同 汉字 3 002 个 。 


D REF, Qik YW РТС», ТЭБ, 19282, 
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台湾 省 交通 大 学 花 了 2 000 多 个 人 日 ,根据 200 余 万 字 的 资料 ， 
НТ ЕЕ НЕТЕТ. 

1974 年 8 上 月 ， 原 中 机 部 、 一 机 部 ， 中 国 科学 院 .新 化 通讯 社 联 
名 向 国家 订 委 巾 清 研制 “汉字 信息 她 理 系 统 工程 ” ,同年 月, 赔 家 
计 委 于 文 ， 批 准 这 一 工程 ， 并 提出 ,这 一 工程 由 四 机 部 组 织 领 导 ， 
成 立领 导 小 组 和 办 各 室 。 这 就 是 有 和 的 “748 工 程 *。 

研制 汉字 信息 处 理 系统 , 首 先 要 漠 清 汉字 的 属性 和 使 用 情况 ， 
进行 汉字 统计 研究 ， 以 便 为 “748 工 程 ” 捉 供 数 字 依 据 。 为 此 ， 
“748 工 程 " 领 导 小 组 和 圆 家 出 版 局 商定 并 抽出 专款 ,开展 汉字 频率 
的 筑 计 研究 ， 由 北京 新 华 印 出 厂 和 北京 市 印刷 技术 研究 所 竺 19 个 
单位 参加 ， 用 满 年 的 时 间 ， 把 从 各 单位 收集 来 的 三 亿 才 字 的 出 版 
物 ， 劳 威 科学 技术 、 文 学 艺术 、 让 治理 论 和 新 闻 通 讯 四 类 ， 并 从 
中 移出 86 本 书 、104 本 期 刊 ,? 075 简 论文 ,合计 21657039 个 字 , H: 
汶 统 计 研 究 的 样本 ， 四 类 语 料 加 时 进行 闫 率 统计 ， 景 后 汇总 成 一 
份 综 合资 料 ， 提 供 “748 工 程 * 使 用 ,他 们 的 统计 是 罚 手 工 进 行 的 ， 
№21 657 039 人 外 汉字 梓 本 中 ， 统 计 出 不 同 的 汉字 为 6347 个 ,并 编 成 
TRPE., D 

нж, РНН, ДАШ, ЖИРАХ, 
字数 越 多 ， 出 错 率 就 越 高 。 例 如 ,， “毛泽东 选集 :用 字 统计 中 ， 各 
单字 用 字 次 数 之 总 和 比 * 毛 泽 东 选集 ,的 总 字数 少 170 次 《汉字 归 
ERRATZA REAT RERS 565 次 之 多 。 可 
见 ， 卑 工 查 频 实 在 是 一 件 事 倍 功 半 ， 想 燥 乏 味 的 困难 工作 。 

其 实 ， 字 频 统 计 这 种 十 分 单纯 的 手工 作业 ， 是 特别 适合 于 转 
电子 计算 机 来 做 的 。 只 要 我 们 事先 编 巡 一 个 字 里 负 计 程序 ， 然 后 
在 计算 机 的 终端 把 语言 资料 直接 键入 计算 机 ， 计 算 宙 便 能 进行 统 
计 和 运算， 打印 出 字 频 统计 的 结果 。 
我 国 用 电子 计算 机 进行 没 字 字 类 的 大 办 模 统 计 工 作 ， 是 作为 


— 


D ДЖ, cms шн — ИД о ,电子 工业 出 版 社 ， 
1983842, : 
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“现代 汉语 词类 统计 ”这 个 国家 任务 的 一 个 部 分 来 进行 的 , 它 是 “ 现 
代 流 语词 关 统 计 ” 的 第 一 阶段 。 字 频 统计 工作 由 北京 航空 学 院 计 
算 向 科学 工程 系 计 算 机 型 论 教 研 室 和 国家 语言 文字 工作 委员 会 议 
字 处 共同 完成 。 他 们 根据 抽 梯 法 的 理论 ， 将 1977 第 室 1982 年 出 版 
的 社会 科学 和 自然 科学 文献 138 000 000 学 的 语 料 , 抽 禅 11 873 029 
字 进 行 统 计 。 语 料 来 源 共 有 四 个 方面 ， 信 报 纸 期 刊 ， 信 教材 ， 
他 专著 ,四 通俗 读物 。 抽 祥 语 料 分 社会 科学 和 自然 科学 两 大 类 ,其 
R, ШАРУАН, 

(D 社会 生活 ЫЕ, RR. ЖОЙ, Е, ЖЫШ 
№577 024 个 汉字 ， 会 不 同 汉字 4 2102, 

《2) 人 文科 掌 包括 历 中、 哲学 、 心 理学 、 教 育 学 、 美 学 、 
社会 学 等 ， 共 抽取 语 料 1 316 964 个 汉字 ， 售 不 辣 汉 字 5 402 个 。 

(3) 政治 经 济 ”包括 财贸 、 统 计 、 管 理 等 ， Mi HRE 
1 644 659 个 议 学 ， 会 不 同 汉学 4 889 个 。 

(O MAIDE BERR, RELIRA W, EREE 
1798 4677-1958, SB] 4 6134, 

《5) 文学 艺术 包括 小 说 ， 散 文 、 戏 岗 、 说 唱 文学 等 ， 冰 抽 

语 料 2 953 903 个 汉字 ， 合 不 同 汉 字 6 501 个 。 自 热 科 学 也 分 成 王 
ABH, 

《1) 建筑 运输 邮电 共 抽 取 语 料 264 408 个 汉字 , $ BJ E 
3010 个 。 

(D ЖИШШ КБО 5527611 B E, ВТЕ 
3688 个 。 

《3) 轻工业 ет, PAEL, н, ВБ. 545, 
ЖН 901 003 个 汉字 ， 会 不 同 汉 字 4 5024", 

di) 重工业 БЕ, Ф. МА, ВЕН, 其 抽取 语 料 
68 4376 个 汉字 ， 售 不 同 汉字 3 9164, ` 

O 基础 科学 ， 包 括 数 学 、 物 理 、 化 学 、 此 物 、 ша, Ж 
S£, ИШНЕН 179 76449 E, ЖЛ: 司 汉 字 4426 个 


. 4 ~ 


这 项 汉字 字 频 统计 工作 已 于 1985 年 完成 ， 提 供出 13 种 字 磊 统 
WE, oB du, 

(D 社会 科学 、 和 月 然 科学 综合 字 频 统计 琢 各 一 个 。 

这 个 统计 表 中 ， 使 用 频 主 比较 高 的 前 10 个 汉 宇 的 有 美 指标 如 
та. 


21.2.1 
| | 
序号 ; са * i mk ЕТЕ 
1 的 555 | 8 de ' 185786 | 1.08557 í 41.0096 
2 - .ON | 1 ут | 160396 | 1.309415 5,48% 
3 | Ж VIFK : 9 shi 1 139814 [1.17580 ; 6.66; 
4 | % ‚2ч | 6 | zài 20984 | 1.012335; 7.68% 
5 | ж воро | £ ! bù c сотов 00.00819 8.58"; 
5 | Y  IHCLEÍ g | e 09708 0.817000: 0.434 
7 | Ж 1О%АВ | 6 уб, 99357 9.937811 ' 19.28% 
8 ü i НЕРР à hs 86700 0.725704 | 10.99% 
9 А | RNCB |? rên | 81106 | 0.632105 ' 11.68% 
10 | 这 YEAX | т | аһа “779087 | 0.695794 | 12.3806 
ARRETAN, ЗАТО ЕНУ ТРА ЧЕ С 12.33650. B 


ЖЗ, ЗЕВС ТОО Edi ТОИ ЕХ En 12.33805, 
点 了 十 分 之 一 强 。 

(2) НЕВРЕМЕ. 

(3) 社会 科学 分科 字 频 琐 计 表 五 个 。 

CD 自然 科学 综合 字 频 统计 表 一 个 。 

(5) 自然 科学 分 科 字 阁 统计 表 五 个 。 

auqa, P ikiman isa yah 
ЖЕНЕ ЕН l, 

这 次 字 频 统计 工作 7 是 我 国 历史 上 利 Жан 
计 规 寞 最 大 、 统 计 科目 最 多 前 一 次 ， 它 不 促 为 现代 汉字 的 定量 研 


» {j]j >œ» 


究 所 供 了 有 用 的 数据 ， 而 且 对 于 识 语 文教 学 、 汉 宇 的 机 械 处 理 和 
信息 椒 理 的 研究 也 有 和 参 考 价值 , 它 可 以 为 手 先 照排 机 字 蕉 的 设计 、 
电报 码 本 的 修订 、 国 家 标准 < 信息 交 措 用 汉字 编码 字符 集 ;基本 
集 : 的 修订 以 其 国 家 标准 上 信息 交换 用 汉字 编码 字符 集 ' 辅 助 集 + 的 
BE, DEIB DO EH, 

EREA Se Pa EXT ЕН JR TR Kuyi ЗЕ ИЕП, HE 
ТҮТАС ЧОИ. WISH DES, KT ERNE 
文 课本 的 用 字 情 况 ,统计 结果 提供 了 一 个 < 按 出 现 次 匆 多 少 排列 的 
常用 汉字 表 *， 包 含 1 000 个 常用 汉字 ， 它 们 在 520 934 字 的 全 部 统 
计 材 料 中 ， 出 更 的 总 次 数 为 409 3050, 78.57% 

“人 字 表 ”中 所 收 汉 字 频 率 景 高 的 是 “的 ” 字 ， 其 出 现 次 数 为 
20 648 次 ， 出 现 频 率 为 0.0396364， 也 就 是 说 ， 平 均 每 100 个 汉 汪 
中 ，“ 的 ” 字 大 约 要 出 现 4 吹 。 字 表 * 所 收 议 字 出 现 频率 最 低 的 是 
“ 莫 " 字 ， 其 出 现 次 数 注 10 次 ， 出 现 频 率 为 0.0000191。 按 频 度 高 低 
排列 的 前 10 全 汉字， 在 语文 课本 中 至 少 都 出 更 826 次 以 工 ， 总 计 
出 现 次 数 230 946 次 ， 占 统计 材料 的 44.33% ， 这 意味 着 有 几乎 近 
四 成 半 的 课文 内 容 是 用 这 108 个 汉字 来 表达 的 。 《 字 表 ?中 的 1000 
常用 汉字 ， 占 了 中 小 学 次 文 课 本 全 部 篇 由 的 五 分 之 上 四。 如 果 在 汉 
语 的 基础 教学 阶段 和 初期 学 习 中 ,挑选 出 这 些 常用 汉字 尽 先 讲授 ， 
让 学 生 尽 旱 擎 握 ， 将 会 大 大 加 秩 识 字 教 学 的 进度 ， 提 高 语文 教学 
的 质量 。 

武汉 大 学 语言 自动 处 理 研究 组 在 RD-i1 微 型 计算 机 上 ， 对 车 
名 作家 老舍 先 生 的 “骆驼 祥子 ?一 书 进行 字 闫 统计 ,计算 出 4 骆驼 宕 
子 } 全 书 总 字数 为 107 369 字 ， 不 同 汉 字数 为 2 413 个 。“ 的 ” 字 出 
现 美 率 为 4,1198 中 ， 是 颜 率 最 高 的 字 。 但 “他 ” 字 出 狐 频 率 为 
2.3966%， 排 在 第 二 位 ， 与 其 它 字 玫 的 高 闸 没 字 排 列 顺序 不 同 ， 
“他 * 字 出 现 颇 率 的 提高 ， 说 明了 老舍 不 说 中 常 必 第 三 入 称 ， 皮 映 
ТУЕНА. Bih, “E” знаток, W зи 
现 778 次 ，“ 虎 ” 字 出 现 220 次 ，“ 妞 ” 字 出 更 174 次 ;它们 的 出 现 


42+ 


SORRIRE RA L SSS ДСН Э, BARER 
WO Е". ФТ". “еш” RAER TIR ЕУ 
PRTA, А8 Та ТЕ ЧЕТЕ АЕРА ЧЕ 
HARER, Ç Dh YES JSE, АНИЛИН 
FARRE. D 

ATAA, WPR, WEERLE, EIRA 
理 前 需要 ， 国 家 诸 言 文 宇 工 作 委 员 会 汉字 处 从 1086 年 6 月 开始 研 
制 现 代 汉 语 常用 字 表 ， 

1952 年 8 月 5 日， 我 国教 育 部 曾经 公布 过 :常用 字 表 3， 收 常 
用 汉字 2 000 个 ，1964 年 简化 字 总 表 ; 公 布 后 ,+ 常用 字 表 > 中 的 字 
经 过 精简 合并 ， 实 际 字数 只 可 1 968 个 了 。 从 :常用 字 表 > 公布 至 今 
30 凶 年 来 ， 社 会 月 字 情况 已 发 生 了 很 大 的 变化 ， 有 必要 重新 公布 
， 一 个 现代 议 语 常用 字 表 。 

这 项 研究 工作 从 已 有 的 字典 和 字 表 中 共 搜 集 了 常用 字 资 料 29 
种 ， 通 用 字 资 料 28 种 ， 从 29 种 常用 字 资 料 中 抽样 统计 15 种 ， 从 28 
种 通用 字 资 料 中 抽样 统计 5 种 ， 共 抽样 统计 资料 30 种 。 统 计 资 料 
选 定 后 ， 用 计算 机 统计 了 以 下 内 容 ， 

CD 统计 20 种 资料 出 现 的 不 同 汉字 总 数 为 8 938 个 。 

(2) 统计 某 个 单字 在 20 种 资料 中 出 现 的 次 数 ， 即 确定 哪些 字 
表 中 收 了 这 个 汉字 。 例 如 , “的 " 字 在 统计 的 0 种 资料 中 都 出 现 了 ， 
就 计 为 30 次,“ 牡 ” 宇 只 在 14 种 资料 中 出 现 ， 就 计 为 4 次 。 

(3) 在 20 种 资料 中 ， 有 的 资料 是 和 根据 汉字 在 具体 文章 中 的 出 
现 的 情况 统计 出 来 的 ， 这 磋 的 资料 叫做 动态 赛 料 ， 有 的 资料 则 具 
是 一 般 的 字 上 典 或 人 们 根据 主观 经 验 编制 的 字 表 ， 不 能 反映 汉字 使 
用 的 动态 情况 ， 这 样 的 资料 叫做 静态 资料 。 动 态 资料 有 6 Ph, 1% 
态 资料 有 14 种 。 应 该 统计 出 现 字 次 中 斑 态 哆 料 内 出 现 多 少 次 ， 动 


-T RRR. EE, Pai. БОШ, ИДИЕВ 
TERRE ВЯ, (ҮШ), & 387 E 1983, 9968—84 
д, 
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K т ，20 种 资料 ВАЕ | 动态 资料 平均 频率 
| —. - 
и б on J 6 0.0372 
э | Е | 11 | 6 | 0.0349 
JE i 17 12 5 0.0308 
жоро r | n 6 0.0306 
| 17 I1 6 0.0287 
福 | 17 11 6 0.0278 
构 | 17 12 5 0.0256 
E ! 17 12 Б | 0.0228 


ЖИВАН БК, ЗААРЫ, Я, 

ЯР ЧАН р, ИО ЕМ SEE а ЛАЙ 
КН Н Е, 

统计 汉学 在 不 同学 科 中 的 分 布 ， 可 以 衡量 某 个 汉学 的 分 布 是 
TERHI. MER- UFER FRE AAA ERS, E 
Ж.Ш ЕРДИ p AM, ЭЗ АИ ЧЕ МИРАЖ АНЕ ШЖ 
基 一 充 宇 不 仅 出 现 频 率 高 ， 而 且 在 多 学 科 中 者 出现 ， 这 说 明 这 个 
汉字 前 分 布 是 均匀 的 。 字 表 选 字 应 该 注意 到 汉字 分 布 的 均 习 性 。 
加 拿 天 学 考 贝 克 早 在 1935 年 就 提出 了 分 布 蛮 的 概念 ， 并 把 这 个 概 
念 应 用 于 法 语词 沪 的 研究 中 。 我 们 在 研制 汉字 的 和 常用 字 避 时， 应 
该 吸取 国外 的 这 一 研究 成 果 。 

1964 年 ， 尤 兰 德 ¿(Juilland) Я 洛 德 西 东 (Chang-Rod- 
siguez) 在 计算 西班牙 说 的 词汇 频率 ,曾经 提出 了 使 用 麻 Cusage) 
的 会 式 ， 并 用 这 个 公式 来 综 全 地 计算 词 的 使 用 频率 和 分 布 情况 ， 
从 而 使 我 们 对 于 单词 在 语 料 中 的 使 记 状 襄 萄 得 更 客观 、 吏 准确 的 
认识 。 f . 

我 国学 者 引用 了 计算 词汇 使 用 庶 的 公式 来 计算 汉字 的 使 用 
BE. HAA RMF 


е Фа 


S 1 
= р RS Np Yi 


ls, sv = N,- N.S/ 
N 
| b 
IU, =, x К GED; 51 


这 个 从 式 的 订 儿 条件 是 侵 定 各 全 分 车 的 抽样 景 是 殉 匀 的 。， 其 
H, №, ДАЛЕЕ ЖЖП UE АДЕ, Маер 
里 的 相对 频率 ， ARKAAN, 了 是 号 字 的 散布 系数 ，8 是 
КАРЧ RJAR IES i 422, а pe E.F. ДЕЕ УЧУ B IH m s 

坦 是 ， 在 实际 的 汉字 使 用 中 ， 搬 难 蓝 求 各 个 分 科 的 扫 样 晶 保 
持 均匀 。 例 旭 ， 文 学 作 剖 涉及 的 社会 面 最 广 ， 它 的 抽样 基诺 该 天 
一 些 ， 测 人 的 科 有 日 涉及 前 社会 面 较 窜 , 它 的 搬 样 其 吝 和 应该 小 一 些 。 
央 此 ， 往 计 算 议 字 的 使 用 麻 时 ， 我 国学 洗 对 上 年 的 公式 进行 了 调 
е MW SEQ BE y A E: 


ууч N.) n 


D 1 ~ S. N IX ] >: 
D), = (Li + 8 У/18 
DE- p D. + DR F; 0 0001 
U, = DE, x F 
Ж, рю] TEI LÆREREN РЕ. IRR 
DLI HRA ЖОШ, CBTA ЧЕ ИРЕТ, 24 F,220_0001 
了 时， 得 到 DE, = TD + DI, CERTAN ВСВ ЖЫ, 
Ti<0.0001 时 ， 得 到 DE,= Dh, ЯК ЧЕ ИЧ БҮЛ RE 
RE E a EA ОКК h gE AE E Эл}, EA A, 
ИИ НЕНТ, ОЕ ИЭК, АЕ АСАУ ЗАВЕТЕ, 
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ЕЕ) Ж ИГЕ ET E ЕЕ а 
统计 时 所 用 的 十 个 科 具 ， 也 就 是 说 ， 语 料 的 分 类 数 是 10。 

根据 洞 整 后 的 使 用 度 公 式 米 记 算 现代 汉学 学 据 统 计 得 出 的 有 
关 汉 字 的 使 用 度 举 例如 下 ， 

当然 ， 在 编制 现代 汉语 常用 字 表 时 ， 记 该 综合 地 考虑 各 方面 


1.2.3 

ш = | т | кик ; PAAA 
&® i 356 263.4 9 
pig | 313 246.1 i 9 
4 | 527 206,5 i 9 
亦 1605 j 1274.7 10 
fi | 2301 2547.3 10 
所 | 2284 1915.0 i 10 
构 | 6263 4261.3 10 
М, | 2184 1708.9 10 


а -1 O l НОН 
的 因素 ， 为 此 ， 提 出 了 4 项 选 字 原 则 ， 

(1) 根据 汉字 的 出 更 频率 ， 选 取 册 现 频 雍 较 识 的 字 。 

D 在 册 现 频率 相同 的 情况 下 ， 选 取 学 科 分 布 广 、 使 用 庶 高 
的 字 。 

СЗ) 根据 汉字 的 移 启 和 构 字 能 力 ， 洗 取 构 词 能 力 和 构 字 能 力 
БЕ ЕЙ 

(4) 根据 汉字 的 实际 使 用 情况 ， 进 一 步 澳 酌 歌 含 。 有 的 字 在 
书面 语 中 很 少 使 用 ， 绩 计时 往往 统计 不 到 ， 但 在 日 常 坐 活 中 却 经 
常 使 用 ， 对 于 这 样 的 字 ， 也 应 适当 选 琅 。 

这 4 条 原则 应 综合 使 用 ， 不 能 只 根据 某 一 原则 来 决定 取 会 。 

根据 统计 计算 的 结果 及 这 4 条 原则 , 编 出 了 + 现 化 汉语 常用 字 
束 ?， 共 3 500 字 ， 其 中 常用 字 2500 个 ， 次 常用 字 1 000 个 。 

+ 现代 汉语 常用 字 表 > 定稿 后 ， 为 了 检验 字 宸 中 所 收 的 常用 字 
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R Ras, Wm kaa aa ЛТЗ ТРО 011076 
字 的 语 料 。 检 测 选 收 的 常用 学 的 使 用 频率 。 

检测 结果 是 ， 

C) 2011076 字 的 语 糙 中 ， 共 有 不 同 设 字 5 141 个， 这 5141 
个 汉 宇和 包含 * 现 代 议 诺 常 用 字 表 中 的 字 有 3464 个 ， 材 盖 率 为 
92.4896 

(2) 在 3464 字 中 ， 含 常用 字 表 C 5002) 中 的 学 2 4994, 
AEE, 

(3) 在 3 464, КЖ SF (1000 字 》 中 的 字 963 个 ， 
BD 3 31.51 

此 次 答 测 未 统计 到 的 < 现代 汉语 常用 宇 表 ?中 的 37 个 空 ， 基 本 
上 都 是 书面 语 中 很 少 用 到 而 日 常生 活 中 常用 的 字 ， 是 根据 选 字 原 
则 的 第 4 条 原则 选 收 的 。 因 此 ， 和 通过 检测 ,证 明了 * 现代 议 语 常用 
字 表 ?的 收 字 是 合理 的 、 实 用 的 。 包 

1988 年 3 月 ,国家 语言 文字 工作 委员 会 和 新 闻 出 版 署 联合 发 布 
了 * 现代 汉语 通用 字 表 *， 字 表 共 收 汉字 7 000 个 ， 包 括 x 现代 议 语 
常用 字 表 ?收入 的 3 500 字 ， 主 要 依据 < 印刷 通用 汉字 字形 形 *， 删 
去 了 其 中 的 50 字 ， 增 下 854 字 。 

制订 对 用 字 表 的 选材 了 时间 范 围 从 1928 年 到 1986 年 。 在 此 时 间 
区 域内 采用 不 等 密度 抽样 ， 抽 样 量 按时 间 源 序 递 增 ， 以 近期 资料 
为 主 费 的 抽 裕 对象。 因 社 会 用 字 与 政治 、 经 济 、 文 化 的 发 展 有 密 
У, ЛАТА Д А ХОА, ЗЕ А Е ч 
ИЛТТЕ НЕ, MARARA E, g 54 er RRE, 
ON As [АТН АОН 16 8, АГА У АСЕ А Ва 
定 。 选 取 使 用 稳定 的 字 ， 才 能 避免 选 字 的 偶然 性 。 

通用 学 的 渤 取 ， 仍 综合 根据 频率 、 使 用 度 、 构 词 能 力 以 及 实 
孜 苇 用 情况 等 四 个 方面 的 原则 来 决定 取 合 。 


Ф АЖ, «КОНЧАЕТ», СОНА Э), E 
海 教育 出 版 社 ， 第 107 页 。 
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£t ЖШ Ro skay НЕД РП se FS S, 
在 附 闪 中， 还 有 现代 汉 诺 通 用 字 部 首 CURETA, MERA 
通用 字 汉 山 拼 音字 坪 顺 庆 表 、 现 代 汉 证 通用 宁 数 据 绕 计 表 。 现 代 
弘 语 通用 字数 据 统 计 考 又 分 为 两 个 袁 ， 一 个 是 情 息 交换 用 充 字 编 
码 字符 集 ， 基本 储 内 汉字 数据 统计 表 ， 一 个 是 信息 变换 用 汉字 缩 
ШЕЕ ЖЕ: Ж К ж ЕНЕ Ж 

ЖИ ЖЕЕ ТЕШ ЗЕ КЕЕ ЛШ арр ГИЙ ЛЕ НЕ Ж] 
BJ. ЖАРАР, 

(1) У, 

(2) RF, 

(3) 静 动 态 分 布 ”静态 资料 也 就 是 不 带 使 用 频率 的 字 表 ， 叫 
做 静态 字 表 ， 动 态 资 料 也 就 是 带 者 使 用 频率 的 字 表 ， 岂 做 动态 字 
表 .。 共 统计 静态 字 表 14 个 ,动态 字 表 6 个, 静 动 态 字 表 总 数 共 20 个 。 
汉字 企 表 动态 字 表 中 出 现 的 次 数 叫 币 它 的 和 鹏 动态 分 布 。 如 果 划 个 
议 字 在 20 个 静 动 态 字 避 四 都 出现 ,那么 , 它 的 静 动 态 分 布 就 古 20。 

(4) PAND ЕТЕН ЧЕ ЗЕН НИН РЕК. 

O Ии BEL ТТ Н ОШ FT r has E, 

0633819288: 6 НИ ОИ ЖА SEL, 3b426122, 

一 一 办 川 省 教育 科学 院 1946 年 8 月 编 的 + 常用 字 选 !， 共 2000 
To 

—— TEEMAA A AEE o, JE6376 
F, 

一 一 北京 语言 学 院 语 言 教学 研究 所 1985 年 3 月 编 的 :汉字 频率 
Же}, JHk45745327, 

Яй АЛКИ ЭР Л 1987141 ДЯ Н 19264 E Ж ШЗ ШШ 
ВЕР, 3560015, 

Ир talpa T аит EZ: 
А ЇЗ ЩТ 19853 3 ЯШИ MIO ИШ ЕНЕ, ETT 
学 ， 单 独 列 项 ， 不 参与 平均 其 率 计算 。 

. 4ў = 


RIE РЕ Е, 
P= Ў Е,/5 


其 中 ，P 是 平均 频率 ，F, 是 各 个 动态 字 表 的 频率 。 

C6》 平均 频率 分 布 情况 ”数字 5 是 指 5 个 动态 学 表 都 统计 到 
RTT MEERA STRATIA AE, veea 

CO 1985 年 字 次 ” 指 在 1885 年 3 月 编 的 :现代 议 诸 用 字 频 度 
Ay ШИИ, ШШ “ЗЕР”, 

са) ХЕ {ЧИЕ НЕНЕН ТИЕ ШЕ, 

(9) РЕЯ RRE КИЙ ТЕЕ FE rt ЕЕН, 
数学 10 指 的 是 该 字 有 呈现 在 10 个 学 科 中 ， 数 衬 9 指 的 是 该 字 骨 现在 9 
个 学 科 中 ，…… А 

下 面 是 这 仿 数 据 统 计 表 的 头 10 个 字 的 情况 ， 


ЖҖї1.з.4 
паат И ЕД Misal т влке} 
1 Жр 20 14 10.0301 5 788 | 556.21 10 
2 | 名 20 11 | 0.0807 5 | 2050 | 1854.8 10 
3 Тш 20 14 10.0111 5 3615 3051.4 бо 
4 ñ | 2 111 1004111 5 2644 {2091.2 | 10 
5 | # 20 14 10.0300, Б í 8993 17592.1 | 10 
6 流 20 j lb 0.08061 5 |12369 , 3201.9 | 10 
7 | бош [ои |0194! 5 тат | 534.5 | 10 
8 | 六 20 14 10,1350 5 эзш |дар 140 
jj 20 11 10.0352 8 2679 12918,5 | 10 
i 
19 T 20 14 0.19357 5 |28158 |23158.1 | 10 


为 了 蛋清 汉字 在 新 闻 信息 中 的 流通 规律 ， 新 华 社 技术 研究 所 
对 设 宁 在 新 闻 信 息 中 的 流通 晤 府 进 行 了 统计 入 究 。 他 们 准 答 了 近 
两 年 时 间 ， 设 计 了 计算 各 自动 统计 软件 ， 选 择 新 华 社 国 内 迁 稿 电 


. 43. 


点， 从 1986 侍 1 月 1 日 起 到 12 月 31 止 进行 统计 ， 共 统计 了 90 627 
篇 稿件 ， 汉 字 容 晤 为 40 632 472 个 。 统 计 结 果 表 明 ， 1986 年 使 用 
的 不 同 设 字 为 8 001 个 ， 标 点 符 导 17 个 ， 外 六 字符 39 个 ,阿拉 伯 数 
字 10 人 个， 其 它 字符 30 个， 全 年 共 使 用 字符 6097 个 中 。 

新 闻 汉 字 流 通 频 率 的 鲍 计 表明 ， 汉 字 的 使 用 带 有 明显 的 了 时代 
特征 。1986 年 度 使 用 阁 率 最 高 的 总 字 依 次 是 “的 国 一 十 中 ЦИЕ 
抬 这 五 个 议 字 的 顺序 重新 整理 一 下 ， 就 是 “中国 的 十 一 ”这 怡 愉 
是 我 国 的 国庆 节 1 这 入 偶然 的 巧合 ， 把 我 国信 民 对 于 自己 国庆 节 
HARRER TEMER AATE. “SENER EAN 
九 个 十 百年 月 日 ”等 表示 数字 和 日 期 的 汉字 流通 频率 很 高 ， 反 
映 了 在 政 革 开放 的 形势 下 ， 我 国人 民 重 视 科学 数据 、 重 视 时 间 科 
速度 的 特点 。 往 各 种 字符 的 流通 频率 中 ， 去 号 “，” 居 首 位 ， 
“的 * 字 居 第 二 位 ，“ 的 ” 字 的 使 用 频率 ,从 748 工 程 ( 汉 字 医 度 表 * 
中 的 3.75%， 下 降 到 流通 频率 统计 时 的 3%( 去 掉 标 点 符号 所 作 的 
统计 )。 句 长 平均 为 每 杀生 个 汉字 ， 段 长 平均 为 每 段 100 个 汉字 ， 
新 闻 每 篇 平均 长 度 为 401 个 汉字 ， 比 748 工 程 时 统计 由 的 新 闻 平 均 
长 度 短 60%。 这 和 忒 情况 ， 反 映 了 新 闻 的 文风 隶 浙 简短 化 的 趋势 。 
748 工 程 统计 的 是 “文化 大 革命 ”后 期 的 资料 ， 当时 的 文章 比较 
完 长 ， 改 革 开 放 定 年 来 。 文 章 写 得 短小 精干 ， 文 风 有 了 了 明显 的 改 
进 ， 这 是 令 人 高 兴 的 事 。 

如 果 不 统计 标点 符 导 ， 那 么 ,从 新 闻 汉 字 的 流通 类 率 统计 中 ， 
还 可 以 看 到 际 计 使 用 频率 与 汉字 按 降 上 颗 顺 六 排列 的 字数 之 问 ， 存 
在 着 如 表 1 .2.5 的 关系 。 

他 们 再 参照 其 它 统计 资料 ， 对 上 述 统 计数 字 加 以 修正 ， 得 到 
81.2.6, 

ДОЈАТ, ОВЕН, ТЕ НИТО. 9—0. 9922 
间 的 汉字 定 为 常用 字 , 累 计 使 用 频率 在 0.999 一 0.9999 之 间 的 汉字 


”部 治 方 ，* 新 闻 信 息 汉 字 流 通 频 度 统计 *，(4 现 代 汉 语 定量 分 析 3)， 
上 海 教 育 出 版 社 ，1989 年 ， 第 95 一 106 页 。 
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1.2.5 


1 j Err wha 
BiR | y W 累计 使 用 字 次 eS S 
0.9 | 843 32710323 6067 
4.98 | 2147 35978550 589 
0.999 | 3606 36305314 57 
0.9999 4872 36338004 8 
0.99999 5586 | 30341304 2 
i ! f 
1.2.6 
| w Waman T 
, кооз laag | BEMBE O ДУШ 
0.9 i 843 +, 9 | 6009 1200(95%) 
0.99 | 2127 1 2079 | 600 1 2400(99.4%) 
0.999 1 3606 3521 60 3600 
0.9999 | 43723 | 5026 6 | 34800 
0.89998 1 5586 | 5658 ° 0000(=s100%) 


ЖУКА Bs, ЖИЕНИ ТЕО. 999990) L BJ E FRF, 
ЭЛЛИЛЕ р ДИЖИР X, 

序号 为 0001 一 2400， 常 用 字 区 

序号 为 ?401 一 4800， 次 常用 字 区 

序号 为 4801 一 ?200: FAE 

序号 为 7200 以 上 的 汉字 属 后 备 字 区 和 证 汉字 区 。 

他 人 认为， 在 次 常用 字 区 的 汉字 ， 其 使 用 频率 常 因 专 业 的 不 
同 而 大 起 大 落 ， 频 素 的 浮动 性 很 强 ， 为 了 照顾 各 专业 的 特点 ， 设 
置 次 常用 字 是 很 戎 必要 的 ， 它 可 以 弥补 党 用 字 区 的 不 足 。 

Д И СТЕНУ ТЕСТЕ ВА Е, ОХЕ РВИ 
ЖЛЕ НИЕ В, Е ОАА ЖЫН, WAPE 
КЕБ А ЖЕШ, ШЖ, КИИ АИИ ВЕ ЕТЕ Д 
у ТВ. SM03832 ТУЕ АТ, Т Ву) 
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ФЕ (Eric Shen Liu 所 编 的 {汉语 频率 词典 :1973 年 出 版 ) 一 书 ， 
只 收 25000 词 ， 取 伴 的 范围 和 数量 都 非常 有 限 。 近 年 来 ,北京 师 花 
大 学 驱 代 化 孝 痛 技术 研究 所 、 北 京 滞 言 学 院 语 将 教学 研究 所 ， 吵 
京 航 空 学 院 计算 机 科学 工程 系 分 唱 进 行 了 大 规模 的 词 频 统 计 研 究 
TF, EMERE TITER R 

书面 纲 语 是 以 汉字 为 基本 字符 的 连 练 的 符号 串 ， 词 与 苛 之 问 
没有 空白 ， 在 一 般 的 情况 下 ， 我 们 看 到 的 只 是 一 个 一 个 前 后 相 续 
的 只 字 ， 丁 不 是 后 尼 分 开 的 词 ， 涡 语 的 词 被 渡 没 在 一 中 康 没 有 空 
站 的 议 字 流 中 。 但 是 ， 在 词 频 统 计时 ， 统 计 的 基本 单位 是 词 而 不 
是 汉字 ， 关 此 ， 必 须 把 连续 的 汉字 符号 申 按 词 进行 切 分 ， 才 能 找 
出 统计 的 基本 单位 ， 也 才 有 可 能 进行 词 闫 统计 ,这 种 工作 叫做 “ 切 
词 " 。“ 切 问 ” 不 仅 是 进行 汉语 词 颖 统计 区 先决 条 件 ， 丙 且 ， 它 对 
于 汉语 的 计算 机 自动 敢 解 ， 对 于 汉 外 自动 翻译 ， 也 都 是 首先 必须 
进行 的 必 不 可 少 的 工作 。 

目前 切 词 的 方式 有 计算 机 自动 切 词 和 和 人工 切 词 两 种 。 北 京师 
范 大 学 和 北京 语言 学 院 采 用 人 工 切 词 的 方式 来 进行 词 频 统 计 ， 而 
北京 航空 学 院 则 采用 自动 切 词 的 方式 来 进行 词 频 统 计 。 

ЭЯ A Lulu, 就 是 任 借 人 们 所 具有 菌 词汇 知识 、 语 法 知 
识 以 及 对 上 下 文 的 理解 ， 从 连续 的 总 字符 号 串 中 把 词 正确 地 分 割 
出 来 ， 使 词 与 词 之 问 出 钢 空 自 。 册 乎 参加 切 词 的 人 在 文化 素养 。 
专业 水 平方 面 存 在 差异 ， 不 同 的 人 往往 会 作出 不 同 的 切 分 ， 切 词 
的 结果 杰 凑 很 大 ， 就 是 同一 个 切 词 揭 人 ， 由 衬 记 忆 上 上 的 差错 ， 前 
后 两 次 切 词 的 综 东 也 不 会 完全 和 相同 。 困 此 ,在 人 工 切 词 的 过 程 中 ， 
应 当 相 互 校对 ， 经 常 讨 论 ， 到 复审 格 ， 把 切 词 的 误差 减少 到 最 低 
RE. 

ЯНЯ “НЮ” ‚ЖЖ ЛЕТИ ЙЕР] ЖЕНЫ ИЙ ИЛ], ШҮК, 
Ж» ВАЗН EKAA DU А ЗА) 4 种 ， 

O АКИО СММ) 如 果 机 占 词 典 让 最 长 的 词 
为 m 个 汉字 ， 则 到 汉字 字符 序列 前 mm 个 汉字 为 一 个 字段 ， 查 词典 
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MANZE, WETTED, HJ IEEE B ЧЕ, ЖЫ ЕТИ] 
Bh Pr а] {ЕТ Ин ЕН P Spy RIS Т] E.s 
` (2) 逆 身 最 大 匹配 法 《简称 KMM 法 ) 其 原 迎 与 MM 法 相 

її, ИНА, АТ ЖАНЫ, ЯШЕ ЕН Л. ШШ 
ERRED; HER ИТА Е, Ж ФИА, 
РЕАЛ Ж И И ЕРЛИ 

ММО ИТА ЫГ ОДА Чр 1/7150 É, EBB3E3 28 5049238 
I- KB TID В, ЕММА ID DJE EET ik И /24522, MH 
ЛИ i g —K4B КАЛЯ, RMMIEZ E DLEMM 法 
BURRE ERT TA ARRA ERE, N 
Mt, RMM ЖЗ ИЕ ЕГИ И ЕЕЕ 

(3) EHN РЕЯ, JEI dep ИА НЕНИ ЛА E: ЖЖ АСЛИ ЛЕНЕ 
ЭИ, ЛАЯ РАЕН НОЕ, HEH В ОДА ТЕ 
Е ЕАН И Ар Uli Ж] Ж 28 ја рус ДОЛЛ. ЖЕЛ] 
HERRER ИЕ КЕЧ. 

CO ЛАПИН ДЫ, ЛАУРА ЖИЙЕН] А В, AW 
PEHR ЛЕДИ ЕЛЕ KE. 

从 时 间 复 杂 庶 、 空 间 复 杂 庆 和 切 悦 精度 三 方面 综合 考虑 ， 一 
般 孝 认为 RMM 法 为 较 好 的 切 词 算 法 ,北京 航空 学 院 采 用 这 样 的 算 
法 来 进行 自动 团 问 ， 取 得 了 很 好 的 效 则 。 

北京 次 言 学 院 语 育 教学 研究 所 对 不 同体 裁 和 内 容 的 200 万 字 
(去 掉 标点 后 为 181 万 字 ， 共 计 131 上 个 词 次 ) 的 没 语 语 料 进 行 了 手 
土 期 分 和 和 统计， 并 与 下 国 社 会 科学 院 语 育 碑 究 所 合作 ， 异 助 于 
МЕС ~ACOS=4 电子 计算 机 完成 运算 和 排序 。 在 这 一 工作 中 ， 
他 们 沦 重 地 统计 了 全 国 中 小 学 通用 教材 语文 编写 组 1978 一 1980 年 
编写 的 站 年 制 语文 课本 的 字 频 与 启 频 。 闫 于 字 类 统计 的 情况 ， 前 
WOTE RRI ANIUE E E 

ERRE TREI REF, SSE SERS ESO E, 
TERE ОА ЧЕ tE? MARRE ER НУНО, WEA 
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用 的 ? НОЕ ВЕЕ ALERA К?Т КАЕ р 
提 多 少 词汇 ， 才 可 以 同一 个 中 国 的 高 中 毕业 上 生 大 致 祖 当 ， 能 够 适 
应 在 中 国 天 学 听课、 进行 讨论 和 书面 阅读 的 需 可 ? ХЕ ДЕН 
解决 的 问题 ,为 了 在 科学 的 基础 上 选择 和 确定 现代 汉语 常用 词语 ， 
如 免 充 诸 词 汇 教学 的 主观 盲目 性 ， 提 高 教学 效率 ， 保 证 教材 、 辅 
助 谈 物 和 工具 书 的 质量 ， 他 们 于 1979 年 把 “现代 汉 庄 词汇 统计 研 
帘 ” 列 为 重点 科研 项 目 ， 开 始 进行 词 频 统 计 的 研究 。@ 

这 项 研究 工作 ， 采 用 人 工 与 电子 计算 机 神 结 会 的 方式 ,对 179 
籍 样 文 、 近 200 慷 字 的 铬 料 进行 了 岂 庄 切 分 、 词 频 统 计 和 数据 分 析 
工作 ， 统 计 总 词汇 基 为 1315 752 汤 次 ， 舍 不 同 单词 31 1590, E 
中 包括 十 年 制 语 文 课本 C52 万字 ，374 654 词 次 ) 的 字 频 和 词 频 的 
定量 分 析 ， 统 计 结果 纺 成 {现代 汉语 频率 词典 ;出 版 。 

根据 数理 统计 的 原理 ， 所 统计 材料 的 总 体 个 数 必 需 达 到 是 够 
数量 ， 才 能 保证 统计 结果 符合 语音 的 客观 实际 ， 但 是 ， 统 计时 又 
不 能 无 限制 扩大 语 料 的 范围 和 数量 ， 这 就 产生 了 样本 数量 的 最 佳 
选取 问题 。 词 频 统 计 属 贝 努 利 概 型 ， 可 以 利 果 相应 的 定理 来 论证 
取样 数目 的 适度 值 。 一 般 可 以 利用 常用 词 出 现 频率 不 低 于 10~* 的 
先 验 假定 《 即 在 10 万 次 场合 ， 常 用 词 至 少 会 有 一 次 宙 会 出 现 ), 这 
时 若 再 增 大 一 个 数量 奴 ， 即 选取 100 万 字 的 语 料 , 在 一 定 意义 上 说 
就 是 适度 的 。: 现 代 汉语 频率 词典 ;实际 统计 了 200 万 字 ,8000 个 高 
闫 词 出 现 的 频率 占 全 部 语 料 的 95%% 以 上 ， 每 个 词 平均 出 现 156 次 ， 
其 余 23000 个 低频 词 也 平均 出 现 23.8 次 以 上 。 可 见 ， 抽样 总 数 达 到 
130 万 词 次 ， 对 选 定 自 常 使 用 的 常用 词 来 说 ， 已 经 是 足够 天 了 。 他 
们 曾 用 随机 抽 杖 的 办 法 , 选 出 5 万 字 的 语 料 来 检验 频率 词典 中 的 头 
535000 个 高 频 词 的 覆盖 率 ， 结 果 所 逃 5 万 字 的 诸 料 中 ,有 88.5% 以 上 
都 出 现在 类 率 词典 的 头 5000 个 高 烽 词 中 ， 把 所 检验 的 词 扩 充 至 
8000, WARES A, 可 见 , 该 频率 词典 的 语 料 抽样 是 经 济 的 、 


. 54 


适度 的 。 

他 们 选取 的 语 料 可 分 为 如 下 4 类 ， 

《1》 报 刊 政论 。44 方 字 ， 占 语 料 总 量 的 34.4%。 

(2) 科技 和 科普 文章 ”29 万 字 ， 鼎 语 料 总 所 的 15.8%。 

(3) 口语 材料 “20 万 字 ， 占 语 料 总 量 的 11.1%。 

(4) АЕ 89 万 字 ， 占 语 料 总 量 的 48 .7 和 %。 

不 过 关于 词类 测定 的 最 佳 语 料 数量 ， 目 前 还 有 不 同意 见 。 
1971 年 英语 词 频 统 计 ， 所 用 的 语 料 芋 有 5 0887214 h], ВАН 
词 86 741 个 ， 其 数量 远 比 : 现 代 汉 语 闫 率 词典 ;的 语 料 量 大 。 这 个 
问题 还 有 待 进一步 的 研究 。 

这 次 词 频 统 计 得 出 如 下 词 表 ， 

(1) AFRUA BERF BERRET 2 
10) 4361605931, Se, AZF RRA 14574, 58.78%, ËL 
БУД 81327, 07.9900, MIFA ВЛАЈ121345 эщ 7.49%,Ц 
YAA 120545, 57.26%, ИЕЖОЈЕ A ИЕ Л, ЦЕ 
ЗЕ 3), 91816415, 0.380, HOFA RRIS, 0.079. 

ЖИРЕ КИЙЕ >, над p. 
“Shi” Ау, НЧЕ S АЈРЕС НОЕ, УЕА И 
СЕЕ ТЕНИ Е Ева тии 

БЛМ, EM, АРН КАЕ m ya, 

ТЕ, з. ЖЕҢ, EARR, RIAT I 

М, Ж РШЕ, Kia iF, ДЖ. AE 

m, АВНА, АЖА, ҚЫЛ AE, ЕЗ, 

ЗЗА ТР, 50Р, RELF, 

ЭРЕН: АЕ, 3 Y W SEA ВН, ЛЕ, TG YE 
有 音 无 字 , 通 篇 的 Shi Shi Shi…, 恐 怕 是 谁 也 听 不 翼 的 。 据 统计 ， 
“Shi” 该 个 音节 ， 在 1000 个 音频 汉字 中 占有 24 个 ， 赵 元 任 先 生 编 
«ВЮ О, КЕ ЛОХОВ, 

Q Ж, ARE» NEEE 19804. 
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(2 AAR ОШОН УИ Ие, МЕШИН 
жоо. ТОО TER RROKA E, 8650024335 Т 
НА Вто Б, 802562111 h TEELE взи, ТЖ: 
113115945, фон) ERARA, ЛОО 词 到 
905004 hb], Ян) СБИЛИ 100-117, ЕТУУ У 3026, Wi 
以 前 2562 个 词 到 31159 个 词 ， 不 同 单 词 数 增加 了 30597 个 ， 育 分 比 
才 增 加 了 15 允 。 由 此 可 见 ， 离 频 词 对 于 百分比 的 增加 有 闭 很 大 的 
必用， 而 低 糯 词 对 于 百分比 的 增加 ， 其 作用 是 很 小 的 ， 往 往 要 大 
基 的 低频 词 ， 才 能 使 百分比 增加 一 点 点 。 

《3) 接 使 用 度 递 降 顺 序 排列 的 词 表 ”这 个 词 表 又 分 为 两 个 
Жз 使 用 度 较 高 的 前 8 000 词 词 表 , ЖЕ И НЕ ЖЕ {К ИПИ ИНЕ {г ЖЕ 

在 使 用 度 较 高 的 前 8 000 词 词 涯 中 , 收入 的 都 是 使 用 度 为 6 以 
上 的 词 。 使 用 度 最 高 的 词 是 “的 ”, 其 使 用 认为 69 080. {ШИЛЕР fE 
i000 以 上 的 词 闪 129 个 ， 词 次 累计 后 全 部 语 料 的 44,7%; 梗 用 度 在 
100 恨 人 上 上 的 词 共 1230 个 ， 词 次 累计 占 拿 部 语 料 的 75.8 上 :使 用 度 在 
30 以 上 的 词 4 186 个 , 词 次 累计 地 全 部 语 料 的 90.1%。 这 说 池 ,: 现 
代 没 语 频率 词典 :所 统计 的 1 314 404 词 次 的 语 料 忠 ,有 十 分 之 泌 是 
用 这 4 000 个 词 写 成 的 。 这 些 词 可 以 成 为 “常用 词 " 的 候选 对 象 。 

在 使 用 度 较 眉 的 词语 单位 震中， 收入 了 使 用 诬 为 5 及 小 二 5 
的 词 22 446 个 ， 这 些 词 也 都 是 低 辣 词 , 出 更 次 数 都 在 10 次 及 下。 如 
办 有 的 词 的 使 用 度 与 频率 比较 相配 ， 册 说 明 这 些 词 的 分 布 还 比较 
汐 习 ， 可 忆 作 为 通用 词 的 慨 选 对 每 。 

《4) 按 语 体 分 类 的 高 频 词 表 ”又 可 再 分 为 4 个 起 。 

a. 报 刊 政论 语 体 的 前 4000 词 词 表 ， ”本末 共 统计 84 种 语 料 ， 
Ли Чал), 有 不 同 词 条 激 12 107 个 。 前 4 00043 3 计 
ІЖ 94.770. ЖОИЕ, П М. АЕ" 等 ,在 本 
表 中 出 现 频率 都 比较 高 ， 反 喘 了 政论 语 体 的 特点 。 

b. 科普 语 体 中 前 4 000 词 词 表 ”本 表 共 统计 21 种 语 料 ,，20 万 说 
KONEN AREER 364 个 。 前 4000 个 词 累计 频率 92,27%。 
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六 中 ， 一 些 科 技 用 语 ， 划 “纤维 *、“ 合 成 ”等 ， 在 本 表 中 沿 现 频 
雍 者 比较 两 ， 芭 中 了 科普 语 体 的 特点 。 

c .生活 口语 中 前 4000 高 额 词 词 老 ” 订 才 汪 统计 18 种 请 料 ，16 
TAK CoE ARRAS 2634, WA 0004540638 Т Е 
为 86.65 由 。 从 统计 数字 汀 以 寿 出 ， 口 语 语 体 用 六 成 比 交 两 种 ОИ 
体 要 宵 三 分 之 一 ， 但 高 频 词 出 现 的 考 次 好 相当 和 多， 前 1 000 个 高 频 
ЗАНИ Я ае у нн 96, НОЗЕ НІ и, ЗИ, RIK 
ERR АА ЕНЕ ОНТ ПЕ ЗАЧЫН АК. 

d .文学 作品 类 前 4 000 1А ERR oca ИЕ, 
6653905 (895), 262362215, Ai 000 个 高 频 词 累 TH 
90.6306. ХВ УЕ НИН АК Н TERIA 
Ped, Е ЮЕШ ИНА ШЫЖЕ. ЭБ ГОК а АН 
FRERE 

(8) BESA ЖАППА E Py br М ОЖ 
ЗА уН НК, ШИНЕ ЖЕЛ i b L AA H EE, JA 
理论 上 上 说， 我们 可 以 概 据 单词 的 出 现 次 数 、 语 料 中 的 总 问 数 和 单 
词 所 略语 料 类 别 中 药 总 词 次 ， 推 算出 有 关 单 词 的 所 基 记 具有 的 分 
布 值 ， 这 种 分 布 值 叫做 理 龟 分 布 词 次 。 计 算 公 式 间 下， 

ЖЕЛГЕН = aiik HAUNN 

实际 分 布 词 次 与 理想 分 布 词 次 可 能 会 让 差异 或 偏 尚 ， 这 祥 凑 
异 或 篇 高 的 大 小 ， 可 通过 篇 关系 数 米 计 算 。 和 位 瘟 系数 的 计算 公式 
ШР, 


E= ( > СО еу) / УА 
EL; Ë, X р; 
ЖФ, ERISH ВНА, e 是 上 号 词 丰 第 | ДЕ ЖИН н 
理想 分 布 词 次 ， e :为 号 词 在 全 部 谱 料 中 的 词 к, Оц Eki E 
第 类 语 杀 中 的 实际 分 布 词 深 ,表示 第 i 类 语 料 在 全 部 诸 料 中 B: 
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БЕЛЛ. РВ КО Е ypt А КВ, ЖШ 
4 类 来 订 算 偏差 系数 。 语 料 电 共有 不 同 单词 31 159 个 ， 故 k 的 值 可 
ВБ НІК) 159 内 的 各 整数 值 。 

麟 旭 ,“ 你 ?这 个 辣 的 实际 出 现 次 数 为 9 694 次 ， 按 使 用 度 公式 
计算 出 的 合用 麻 是 6 103, 南河 枚 差 三 分 之 一 以 上 ， НОМЕ 
式 计算 出 它 的 偏差 系数 为 3466.92， 在 前 3200 个 高 频 词 中 ， 贪 次 系 
数 最 商 。 之 所 以 出 现 这 样 大 的 候 离 ， 是 由 于 在 报刊 政论 和 科普 文 
章 中 ，" 你 "这 个 词 用 得 极 少 ， 在 报刊 政论 中 ，“ 你 "只 出 现 115 次 ， 
这 是 它 的 实际 分 布 词 次 ， 而 按 迎 起 分 布 词 次 公式 算出 的 所 期 望 达 
到 的 理想 分 布 词 次 应 为 2 141 次 ， DARRER., “已 经 "这 个 词 的 
忌 原 出 现 次 数 、 使 用 度 在 各 尖 语 料 中 的 二 离 程度 都 不 大 ， 按 公式 
算出 的 偏差 系数 为 1. 35， 在 前 300 个 高 频 词 中 , 它 是 分 布 最 均 勾 ， 
偏差 系数 最 小 的 疗 。 

通过 偏差 系数 来 比较 实际 分 布 癌 次 与 理想 分 布 词 次 之 间 的 盖 
异 ， 可 使 我 们 对 子 前 300 个 高 频 词 肯 实 际 能 用 情 癌 , 得 到 更 加 消 基 
的 认识 。 

汉 衣 移 词 是 由 汉字 组 成 的 ,因此 ,从 :现代 汉语 频率 词典 ;中 ， 
我 们 还 可 以 对 汉字 进行 定 党 的 分 析 。 

把 频率 词典 中 的 词 全 部 分 解 为 汉字 ， 共 得 不 问 汉字 4 574 个 ， 
这 些 汉字 分 布 于 总 字 狼 为 1 808 114 字 的 语 料 中 。 其 中 ,出 现 345 次 
以 上 的 前 1 000 个 高 类 汉字 ， 累 计 字 次 占 金 部 语 料 的 91.3 吧 , 如 时 
截止 到 出 现 30 次 以 上 的 前 2 418 个 汉 裤 ， 累 计 字 次 可 占 全 部 语 料 药 
93% 以 上 ， 其 佘 的 出 现 次 数 低 于 30 次 的 ? 158 个 议 字 , 其 出 现 字 次 
之 总 和 ， 具 能 占 人 部 语 料 的 1% ,每 个 字 的 主 均 出 更 机 会 为 后 万 分 
之 五 。 

分 析 前 1 000 个 高 对 名 字 的 语音 情况， 可 以 了 解 到 :这 1000 个 
汉字 落 色 636 个 音节 形式 出 现 , 占 全 部 普通 话语 音 音节 《1325 个 ) 
的 47.1%， 黄 中 ， 阴 平 音节 145 个 ， 阻 平 音节 18s5 个 ,上 声音 节 148 
T RRR PERYA, DARYL, HE AT 
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对 优势 。 从 组 成 音节 的 省 字母 来 看 ， 和 名 首 字 母 的 音节 数 为 ， 
a=5, b=28, с=41, d=38, 
с=з, #=20, B=34, h=54, 
j=34, k=16, I=34, m=28, 
п=24, р=21, d=24, Т=11, 
S43, tajd, м=20, X=33, 
y=42, 2253, 

这 占 单 词 的 首 学 母 分 布 情 癌 有 些 接近 ， 仍 以 z、s 等 字母 开头 
的 音节 为 多 。 

分 析 前 1 000 个 高 频 汉 字 的 语义 情况 , 可 以 对 汉字 表示 的 基本 
WATE СЕИЛ) 得 到 一 个 较为 系统 化 的 认识 。 基 本 义 项 的 
研究 可 为 自然 语言 理解 和 宙 器 翻译 的 语义 分 类 系统 的 研究 提供 有 
价值 的 参考 。 

汉字 的 基本 义 项 分 类 及 所 含 汉 字数 如 下 ; 

1. 社会 生活 
社会 结构 2923 СЫ, ж, eee) 
职业 行业 173 (Ту, езе) 

ARXA З ОЮ, T. MRa.) 
人 的 躯体 223 Gk. Bj. peeo 
食 23 字 Өй, É. Жез) 
Ж 10 字 GK. HR. Heeso 
tE 165 (TJ. 8. йз) 
行 8 字 GE, ЙЛ. оф.) 

文化 生活 ”20 字 ( 纸 、 笔 、 书 ……) 
10 RPR 16 字 Өй, 1, №) 

ВЕ 

1 НД 217 GE, Ш, Heee) 
.2 季节 时 间 199 (年 、 月 、 春 ……) 
.3 方位 空间 30% ОК. W, Eee) 


Ë оз ого нә 


ч б < сз си 
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2.4 НАКИ 633 Ор, PR 0 

2.5 ВИН 25° CE, KK. giete) 
Жї 

3.1 Д 20532 (—. +. Heec) 

3.2 ЖЫ 407 бїй, A, Кесе) 

4, МТ 

mE 8 GE, Ж, pece) 

-ARBE 459 Gy, Ж, бее) 

4.3 ЖҮРЫЙ 465 (<>, Кысты, 

0-5) 
МИИ 1259 Ой, 2. M...) 


се 


心 
= 


к 
г 


c 


一 般 动 作 2356 GE. 1ш, {ес 
社会 行为 ”25 字 Gg, К, poe 
J ITE (и, M. R... 
5.5 М 27% Ой, WL. Heee 
Зла 1635 ӨШ, ЖЕ, yioo 


4 
行为 状态 
5.1 FE 159 GR, ñL {ie 
2 
3 
4 


М че мс Ме Мм wx 


ст 
= 


5.7 AH HE 
5.7.1 脸 部 动作 ”39 字 CA, MB. eero 
S.7.2 Фар З (B. Ж. ДШ) 
5.?.3 感情 流露 MF ӨХ, E, eeo 
5.7.4 ФЗ БОЕ Ce. Bh. feco 
Н) 


.3 МИМИ: 37 GT, Ж, Ba...) 
i EADIE 325 СЄ, Йй, КЕ) 
. т Ш ОБ. эт, Mee 

6. 指 代 关系 28 (©, K. Bo... 
7. 连续 转折 205° ӨШ, W, Woe) 
8, Ж ЫДЫ Б ООЙ, 4, Же) 
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Cl 
=] =l 
Гарі 


en 
S 
Bt 


9. ri 13 字 GE. М, Bro 


10. 副词 
10.1 BREE BT Ой, 很、 都 ……) 
10.2 ШЖ TZ (H. A, eno 
10.3 限定 上 时间 me (ИШ, Ж, ece) 
11. BERR GP C. DR. Ар) 
12. ШМ Er (BU. db, Ro.) 


13. AARRE 1157 (MB. W, Weep 

ВОООХ ba УСК К, 6k — 4 i S 
A, RERA ERRAI DB ЖЕКИ ИОК ИИИ 
来 描述 。 

分 煌 前 1000 个 高 其 汉字 的 宰 词 能 力 ， 可 以 了 解 到 , ДН A 
最 强 的 汉字 是 “ 子 *， 它 可 构成 单词 668 个 ， 基 后 依 次 是 “不 ,类 ， 
ÜQ. À. 一、 涉 、 气 、 无 、 水 "”。 攀 词 能 力 在 100 笨 以上, 出现 词 次 
在 1000 次 以 上 的 前 70 个 汉字 ,它们 参与 构成 的 词 条 达 11133 答 之 
多 ， 占 不 问 词 条 总 数 的 35 ,7%。 这 些 汉字 在 词 首 、 词 间 、 调 来 的 
构 词 能 力也 显示 出 明显 的 规律 性 ， 在 词 来 的 构 词 能 力 最 强 ， 在 词 
站 的 罗 词 能 力 只 是 在 词 末 构 词 能 力 的 87%， 在 词 间 的 鬼 词 能 力 只 
是 在 词 末 构 词 能 力 的 35%。 人 高 赴 汉 字 构 词 能 力 的 分 布 特点 米 看 ， 
汉语 自动 切 词 采用 逆向 时 大 匹配 法 自 右 而 堪 邮 进行 切 分 ， 在 理论 
上 是 有 根据 的 ， 内 为 左面 词 未 航 汉 字 往 往 就 是 单词 的 分 界线 ， 它 
最 有 可能 成 为 让 动 切 分 的 切 分 点 。 

词曲 统计 的 结果 还 表明 ，31 159 全 不同 单词 的 平 鬼 说 长 为 
2.09 字 ， 也 就 是 说 ， 平 均 每 个 单 订 由 ?3.09 个 汉字 组 成 ， 这 是 更 恋 
的 斑 均 词 长 。 吉 果 从 语 料 中 单词 出 现 的 动态 情况 来 计算 ， 则 可 得 
出 动态 的 下 均 记 长 为 1. 中字 ， 也 就 是 说 ， 在 实际 的 语言 运用 中 ， 
平均 钳 个 单词 由 1.36 个 汉字 构成。 

过 去 有 许多 学 省 认为 ， 现 代 六 语 以 双 音 节 词 占 优势 ， 也 词类 
统 主 的 结 时 来 看 ， 这 种 说 法 林 锡 失 之 目 面 。 双 音节 词 在 31 159 个 

* 6] + 


hF bj, БТ Wie ВТЗ К, ШИ Җ&АЖПУ?З.6%0, IN 
HRPE, =jJe L57624, MEWAK. Ad, EF 
EULERA о. 226, E, ARA ТИЕЛИ, НИО a 
Ур, MEHAR аии, MARTAST, Rk S H| 
+ АЗ Rak AARE %„ 
北京 师范 天 学 现代 教育 技术 研究 擅 的 汉语 词 频 统 计 工 作 的 研 
ЗЕН, ЕРЫ ДП ПЕТ ИЕ, ЧЕ ТЕТЫ ЕП 
ХЕ Й а] у А А лд» WITEX 106.877 F ШИНЕ НИ ШЫ) 
上 上 ，* 切 词 后 得 出 了 总 出 现 次 数 为 704 341382  3EZE SF Y 1139601 
个 词 的 汉语 频率 词素 。 在 投降 铬 顺序 排列 词 表 的 前 8 000 个 词 中 ， 
单 音 节 词 为 1413 个 ， 占 17.66%， 双 音节 词 为 6050 个 ， 占 75.6%。 
但 在 语言 使 用 的 动态 环境 中 ,在 704841 个 词 次 的 语 料 中 , 单 音 节 词 
出 现 词 次 为 371 886 次 ， 占 52,7%， 双 音节 词 出 现 词 次 为 308 709, 
43.8%, НИК 18172, ;2,6%, ИЙИ 
词 次 为 5 9239， 五 音节 间 出 现 词 次 为 8d4。 六 音节 词 出 现 词 次 为 61， 
这 三 项 共 占 0.9% 。 在 按 降 频 顺 序 排列 词 表 的 前 8 000 个 词 中 , 单 首 
节 词 的 出 现 次 数 占 前 8 000 个 词 的 总 出 现 次 数 的 52,2% ,而 双 痪 节 
词 的 出 现 次 数 仅 占 前 8 000 个 词 总 出 现 次 数 的 36.7 色 。 可 见 ， 在 语 
言 的 使 用 中 ， 鼎 优势 的 不 是 双 音 节 词 而 是 单 音节 词 。 
北京 航空 学 院 的 现代 汉语 词 频 统 计 是 上 月 前 国内 外 规模 最 大 的 
汉语 词 频 统 计 工作 ， 他 们 在 国内 首次 实现 了 现代 充 语 计算 机 自 当 
切 词 ， 现 已 取得 可 喜 的 成 果 。 
这 项 词 频 统计 选材 约 三 亿 宇 ， 样 本 总 字数 达 2500 万 字 之 多 。 
他 们 把 全 部 语 料 按时 间 顺 序 分 为 四 个 时 期 ， 
第 一 时 期 ，1919 一 1949 
第 二 时 期 ，1950 一 1965 
第 三 时 期 ，1966 一 -1976 
第 四 时 期 ，1977 一 1982 
整个 统计 样 末 按 学 科 分 为 社会 科学 和 自然 科学 两 大 类 ， 每 类 
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又 分 五 个 子 类 ， 共 十 个 子 类 。 

主要 成 时 有 以 下 三 项 ， 

]. 四 个 时 期 十 类 分 科 频 率 表 (第 一 个 时 期 没有 良 然 科学 的 五 
类 分 科 频 率 表 ), 共 如 个 频率 表 。 

2. 四 个 时 期 中 每 一 个 暑期 的 社会 科学 综合 频率 表 ， 自 然 科 学 
崇 合 频 率 表 和 社会 科学 、 自 然 科 学 综合 频率 表 。 

3. 周 个 时 期 的 综合 频率 表 。 

他 们 的 研究 结果 ， 也 证 实 了 在 动态 使 用 环境 中 ， 汉 话 单 词 以 
单 首 节 词 居 首 位 。 粮 据 伺 们 的 统计 ， 丰 具体 的 语 料 中 ， 章 音节 词 
的 出 现 词 次 占 56.70 咱 ， 双 音节 词 的 出 现 词 次 占 39.65 嘿 ， 三 省 节 
词 的 出 现 词 次 下 2.31 闪 ， 四 音节 词 的 出 现 词 次 占 1.19 站 ， 玉 彰 节 
词 的 出 现 词 次 上 由 0.144%， 六 音节 词 的 出 现 词 次 贞 0.083% ， 七 音 
节 词 的 出 现 词 次 占 0.023%% ,这 些 统计 数字 也 阿 样 雄辩 地 证 朋 了 在 
现代 汉语 的 动态 使 用 情况 下 ， 让 具体 的 语言 中 ， 单 音节 词 确实 是 
由 优势 的 。 

ARRAMA LERA FARSER TARGE KF, 
ЖЖЖ ЛШ О НИИ, ТШ ЛАУ ЕЗУНИ Ж. 


1.3.7 
йй = | 读音 1 | 出 现 次 数 1 #% 2 | ШАЙ 
行 | xing | 4513 | hang | 1183 
重 zhong | 5109 | chong 1085 
长 | chang 8538 zhang 4934 
还 huan | 549 г hui | 28889 
Y | ie 136183 ' lico | 236 
都 dou 37938 du . 280 
和 he 134281 : he 16 
8 ji 17 " де} 14292 
# xing £7 sheng | 7059 
f Лао шо | ie | 2 


统计 数字 自我 们 说 明了 密 音 字 的 分 布 情况 ， 这 对 于 现代 汉语 
的 规范 化 的 研究 ， 元 疑 是 很 有 价值 的 。 


第 3 节 语音 统计 研究 


在 语音 自动 识 允 与 合 威 的 系统 的 研制 中 ， 必 须 对 于 语音 的 钞 
计 特 征 进行 研究 ， 才 有 可 能 进一步 提高 系统 的 性 能 。 另 处， 在 汉 
字 编 码 、 文 字 改 革 的 研究 中 ， 也 有 必要 了 解 语言 的 统计 特征 。 

中 国 社会 科学 院 语 言 文字 应 用 研究 所 拼音 研究 室 ， 根 据 北 京 
航空 学 院 的 现代 汉字 字 频 统计 烤 料 ， 在 VICTOR 一 9000 电 子 计算 
宙 上 ， 对 7 754 个 现代 汉字 的 字音 进行 了 统计 研究 ， 取 得 了 现代 议 
THERE, 前 母 、 声 调 、 音 节 前 各 秆 狐 计 数据 。 由 于 这 些 数 据 症 
对 动态 使 用 中 的 汉字 进行 统计 的 结果 ， 因 此 ， 它 们 更 能 准确 地 反 
跤 议 字 字音 在 现代 汉语 书面 语 中 的 分 布 规 神 。@ 

汉字 字音 的 统计 研究 分 别 统 计 了 声母 、 葛 要、 声调 和 音节 的 
频率 。 

汉字 字音 的 声母 频率 统计 结 朱 如 表 ! ,3.1 所 未。 

认 表 1.3.1 中 可 以 看 昌 ，22 个 声 坪 中 ， 前 6 个 声母 的 出 现 烽 率 
可 以 履 放 金 部 声母 出 现 禾 率 的 50% 以 上 ， 前 8 АНЕ DL 3 © 
60% 庚 上 ， 前 10 个 青 坪 可 以 覆盖 ?6% 以 上 ， 前 13 个 声 二 可 以 履 盖 
80% F, Вета оом. 

在 所 有 声母 中 ， 零 声母 频率 其 高 ， 占 了 13.9838 邮 RREN 
a HAREE, HE H EH gee. 0161, 

按 辅 首 志 母 的 发 音 部 位 分 类 ， 各 类 声母 的 频率 分 别 为 ， 

DEER (d, t, n, D 21.9163% 


Q RPT GAREA AFAR, 108648, 
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пою] ls g| й ж | 
1 
1 m yi pk 1057 | 13.9838 
2 d 375 10,9514 
3 sh 332 1.4206 
4 1 B18 7.1768 | 
5 zh 151 &.7353 | 
в і 527 5.5142} 
7 x 480 5.2758 
8 g 338 4.8006 
9 h 391 4.8032 
10 b 368 | мив | 
H z 182 | 3.6168 | 
12 t 325 i 3.5883 
13 q 358 3.2521 
14 ch 328 3.0355 
15 m 320 3.0184 
1$ f 335 2,7952 
7 r 106 2% 0138 
18 n 167 1.8648 1 
19 s 183 1,858! 
10 k 229 1.7289 
21 с 134 j 1.301 
29 | р 313 1.1174 
ñ i] F754 100,0000 
@ BREE Gh, ch, s", r) 19.2352% 
@ FEE G, a, x) 15. 704734 
Ф EEE Cá, k, h) 11.08374 
D ЖЕҢ Cb, P, ту 8.57109 


ЖОНИ ЕС И) 


13.9838 
24.9351 
32.3557 
39.5335 
46.2878 
51.7820 
57.0578 
61.8584 
66.3615 
70.7967 
74.41133 
78.0022 
87.2518 
81.2898 
87.3082 
90.1034 
92,1472 
94.0120 
95.8644 
97.5155 
95.8826 
100.0000 
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@ FRUE G, c, s) 8.7583% 


@ WWW ©) 2.7952% 
按 辅音 声母 的 发 癌 方 法 分 类 ， 各 类 声母 的 频 闻 分 别 为 
© 塞音 (b, P, d, 1, 9, К) 28.6224% 
© ZEE G, c, zh, ch, j, q) 25.1234% 
@ BE (Í, s, sh, r, x, h) 23.8732% 
© jË (l 5,5142% 
© АФ (т, n) 4.883204 


ЖЕНЫ уН, А АТР (P, t, k, c, ch, q) 频率 为 
14,0299%, RRAK (b, d, o, 1, Zh, D 频率 为 37.7159%。 

按 畏 音声 母 的 清油 分 类 ， 各 类 声母 的 频率 分 别 为 ， 

@ {ЕР ИЕ (т, n, 1, r) 12.4412% 

Сс 清音 声母 OHEAK E) 73,5750% 

汉字 字音 的 赣 母 频率 统计 结果 如 下 ， 


1.3.2 
FW. = 前 TD 学 数 | жо жо) | ЖКУ ЖИЕ С) 

1 i ' O 16.0993 + 16.4993 
2 ° ! 243 i 19.2218 28.7211 
8 | u | 62 | 6.7100 38.4311 
4 ian ав | 4.3407 37.7717 
5 og | 248 Í| 3.421 41.7138 
8 uo 1 зз | 363 | а 
7 ng г 268 | 39484 | 49.0925 
8 oi | 25 | 38357 | 52,6281 
9 Í оп 423 $ 344684 | 58.0599 
10 | a 255. 3,4319 | 53.5245 
u | eng 22 | 34899 | 62.6884 
12 en | M i 3.0292 65.7179 
18 ше | 274 3.0024 83.7199 


1 
w——— autura sr asas 
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1 


1 
3; Ë B i # 数 йй ЖОН) ЖНС? 
- —.. .. .. ! _ - 

и | œ | 302 | 2,1597 т\.4191 
5 | ong | 246 i 2,6626 74.1423 
16 iou | 158 2.5771 76.7194 
17 io | 262 2.610 78.9803 
o | a ' 215 | 2,2487 81.2260 
15 | is 269 2.1406 83.3666 
20 їп 197 2.0805 85.4471 
21 iang 126 | 2.0613 87.5085 
22 оч 193 1.8418 1 89,3503 
23 uan 161 1.5083 90.8565 
24 ei | 133 | 1.3084 92.1649 
25 l ia | 96 р 1.1232 93.2882 
26 | цап ; 101 1 0.9998 94.2878 
27 uen ' 129 0.9525 95.2403 
28 бе 8 1 0.9435 96.1838 
29 | чад | 94 0.7962 96.9800 
30 ча 53 0.&216 97.6018 
3 1 er аз 0.6183 98,2201 
32 | iong , 51 0.5483 98.7684 
33 | ün | 86 0.5130 99.2814 
34 ° | 106 0.2674 | 99.0817 
35 uqi | 40 0.3465 2 89.9953 
36 ueng ` 7 0.0028 | 89,0980 
37 | io 2 0.0019 10.0000 
38 | m | 1 0.000) 100.0000 

е # | 7754 100.0000 
— | _ l l Jj 


ЮУ, nD, MUERE ГИЙ, RE, MRRF 
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的 前 几 共 和 个 ， 信 外 mm，8 查 所 统计 前 ?9754 个 汉字 中 未 出现 ， 莽 
在 表 1.3 .2 中 来 计 入 。 

从 表 1.3.2 中 可 以 看 出 ，40 个 前 母 岂 ， 前 * 个 获 母 可 狂 著 全 新 
BERSOA, LOREA 30090, ПТА ЕТ ЫШТО 
БАр, ВВ ЕРГЭ НО ШОВ, 2З B р S 369000 0 
Ta 

ERRER T, 的 出 现 频 率 景 高 ， 点 了 16.4993%， HER 
БОЙ АЗИ Ж: 一 个 是 香 面 元 音 [i], 一 个 是 天 尖 前 元 省 [1], 一 
个 是 舌尖 后 元 深 [。[ 习 的 频率 是 9,4332% [的 频率 是 1,4946%， 
[MIP BUR ДЕ5.5716% 

ЮЕШ ГУ Эр Ар, ЁШ, BEREA, Ий 
3; 


D рњ 43,4174% 
O АЕ 33,7118% 
© Б Й 26,1936% 


ЖЕН ДЕРИ ЕР. РОТ, ЫЕ, d E P, 


Q Ж ПРЕ 43.4714% 
© ЖЇР Р} 29.6660 % 
© ATER E 21.6107% 
© Пр} 4.75518% 


ЗЕРЗАТ, Жр h ЭЙ) 338 Sp f BJ SPE Р, 
其 频率 分 别 为 ， 


© KERSE 72.5944% 
D AWK Е. 27.4056% 


EA WI Ei, FARRE RUDE 214 5039, AN 
WD ОАЕ НУ ВИ О 10.35862, HOR А h BÚ Ж 32 93 
1.9431%. 

ЕЕЕ АШ Ж, ЖИЗ ОА В РЕВО ГО ЕДЫ БЕРИВ, 
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其 频率 分 别 为 ， 

@ ЭС БЕ 48.6556 % 

GA ж Fe EJ BR 51.34449 

ЛЕЯ КИЙБЕ, MEDEA- HREM 率 为 8 .193051 ,元 
EDE- RAR 9.12966, WARR BEDE НИНЕ 
其 为 17.6326%， PER — п ДЖ 16.89025; А9 
尾 为 ~ ту НЕЙ Д4 16,8216%, ЖК АТР НАШЕ: 频 ЖКУ) 
33.71184. 

BW ЧЕЛЕК ЕГИП ЛЕ ЖЫЕН EHU, 


#1.2.3 

ы га, | + x | | 

# зо ир жой жоо | RROD 
1 ООЙ 2458 I! 35.7254 35.7254 
2 m оз 2016 ! 20.5069 56.2323 
3 Ш E 1927 20.4313 6.6635 
4 Jo оян 1291 17.3845 | 44.0120 
5 в у 39 5.9850 i 100.0000 

о iH | 7754 | 100.0000 


L a=. 


这 样 的 卢 调 频率 是 根据 村 动态 使 用 中 的 汉字 统计 出 来 的 。 我 
ОН И ЯА Е Н АУ ZAPOA АЕ, Е 
最 多 ， 这 种 情况 ， 与 我 们 的 经 验 是 易 合 的 。 

再 谈 谈 汉字 字音 的 音节 频率 统计 结果 

统计 时 分 不 带 调 音节 和 带 主音 ЕЧ ЗЫЯ, 如 果 统 计 
时 不 考虑 音节 的 声调 ， 出 得 出 不 带 调 音节 419 个 ,如 果 统 计时 考 由 
音节 的 声调 , 则 得 出 带 调 音节 1333 个 。 

不 带 调 音 节 419 个 中 ， 有 13 个 音节 有 音 无 字 ， 前 20 个 Mü 率 景 
高 的 不 带 调 音节 如 表 1 .3 .4 
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4.4762 
2.1760 
2.8273 
1.7608 
1,6910 
1.3993 
1.3076 
1,3009 
1.1845 
1.1383 
1.0949 
1.0824 
1.0657 
0.9957 
0.9832 
0.9546 
0,8785 
0.8716 
0.8699 
0.8115 


序 号 ;者 ДЕ. кои моо 
H 1———-- - .- Le а. 
1 de 7 | 
2 shi 8 ' 
3 j yi 133 
аг 96 
5 | à 127 
6 you 45 
7 bu 73 
8 li 82 | 
9 zheng 18 
10 zai 10 
11 wei 67 | 
12 ha 39 | 
13 zhe 24 
14 guc 18 
115 qi | 80 | 
16 | ga 34 1 
17 | геп | 19 | 
18 | уй i 1% | 
15 | le | g | 
20 | jian 73 | 


ЖЖС) 


”一 -一 一 -一 一 


4.4162 

7.9522 
10.7794 
12.5403 
14,2313 
15.6311 
15.9387 
18.2396 
19.4240 
20.5624 
21.6573 
22.7397 
23.8053 
24.7911 
25.1743 
26.7289 
27.6024 
28.4740 
29,3439 
30.1554 


从 形 1.3,4 中 可 看 出 ， 同 一 音节 所 含 字数 最 多 的 是 133 个 (Gy| 音 


її)» 


带 调 音 节 1 333 合 中， 有 92 个 音节 有 音 无 字 , 前 20 个 频率 最 高 


的 带 调 音节 如 表 1.3.5 所 示 。 


从 雪 1,3,5 中 可 以 看 出 ， 同 一 音 闻 所 含 字数 最 多 的 为 ?3 个 5 


首 节 )。 


t | i 

序号 | 音 # = 数 | 频 жор | BirBoge) 
1 i dA), 3 | 431?55 0 4.1755 
z | sh? 40 | 1,8279 | 6,1035 
3 ут | 14 1.4863 | 7,5898 
4 bü 11 1274 8,8637 
5 | za | 3 | la | 9.9861 
6 | shi 17 1,0848 12.0796 
7 | hë 36 | 1,0474 ' 12.1180 
8 i: you 8 И 0.9640 12.9820 
9 ecg) | 2 | о,заз: 13,8301 
10, we д 0.8109 14.6410 
u | tü a | 0.7518 i 15.3998 
12 gè 5 | 0.7123 16.1081 
13 zhi 47 0.6954 ‚16.8005 
14 ! rën 3 L 068 “17.4905 
15 l; 42 | О о, ‚18.1730 
16 уї 15 | 0.8661 18,8391 
17 zhà 5 0.66458 1 19,5038 
18 zhëng 9 0.6565 20,1602 
19 її 20 0.6202 29.7804 
20 y? 


| 73 0.59800 21.3711 


ДИАЛ И, W, ЗАИН, ТОН ФНО ЕВЕ 
Юй, ЖКА, ЛАНИ ЕВРЕ ЧАР W 8038 ДИЕ 
1.3.6, 

为 拼写 11 873 453 个 汉字 ， 共 需 使 用 35 706 037 个 字母 ， 平均 
字 长 为 3.0072 个 字母 。 如 果 用 数字 标 调 法 ， 分 别 用 1，2，3，4， 
5 代表 阴平 、 阳 平 、 上 声 、 去 声 、 轻 声 ， 册 拼写 11873 453 个 汉 
字 共 需 襄 使 用 46 808 513 个 符号 ， 平 均 每 个 汉字 使 用 3.9473 个 符 


= 
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же | ав асо Эй 序号 | eg | уны) ЖЯ 
1 i 37557 | 19.7557 | 15 | x | 127544 | 89.8513 
2 n 02.8404 | с5.5881 | a í b td4748 | 91.3262 
3 | s (9.9476 | 35,5227 | 17 | <€ L AAA | 92,7702 
4 | u 7286443290 і 18 | t LL93 io 93.9007 
5 | e 17.6074: 50.8975 19 | w | 1.1004 | 05.0641 
6 | h {7.2142} 58,1116 | 20 | 4 | 1.0811 | 96.1544 
7 | g |7.1901 | 65.3017 | оэ |от 1 1.009 $ 97492 
8 o |5.420 i т0.7198 | 22 f 0.9296 98.0787 
9 d 3.6417 | 74,3554 23 r | 0.8853 98.9640 
10 | z |2322504 1 77.6059 1 24 | K 0.5749 | 99.5390 
lI | Y 3.932 | 80.7991 | 25 |р | 0.3716 1 09.9105 
ls оз.07тт 83.8767 | 28 | Ш f 0.0895 г 100.9000 
13 | j 2.383685 86.2633 ， 07T 1 一 一 一 
14 1 | 1.6337 ; 88.0989 | 合计 100,0000 | 


对 同音 字 调 查 的 结果 如 表 1 05.7 ОБЛЫ z SE 
同音 与 省 ，、 也 就 是 说 ， 要 考虑 音节 次 声调 的 异同 》。 

从 表 1.3,7 可 看 出 ， 多 烙 审 节 含 同音 字数 并 不 多 , 含 癌 音字 
超过 3 个 的 音 区 有 557 个 ， 占 有 字音 节 的 45%, 累 计 频 率 卢 25.5%3 
会同 音字 不 超过 10 个 的 音节 有 1029 个 ， 岂 有 字 肖 节 总 数 的 83”， 
ЖТР 60.600, 而 同音 字 超 过 20 个 音节 具有 有 39 个 ， 占 有 人 字音 
ЗИ, АНЯ А щіЗИ, MER E 6 1р К, 
ФПГ РЕА АИ, ЖЕНЕ. GOE 38 BU IA 
W, 

пали, 育 调 是 汉语 语音 系统 的 重要 组 成 部 分 

声调 的 类 型 、 连 续 变 调 、 闪 义 功能 以 及 它 与 语调 、 TEALA 
EAEAN, 为 此 ， 有 必 发 在 定性 描述 的 同时 ， 对 汉语 声调 的 
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ARETY 


СШ ЕД: о % Ж ba ож (30) BA IEEE (222 
ERR) | 92 0.0000 | 0.0600 
1 (TES) А 558 6.4037 | 6,1637 
2 190 1.0401 1 11.34341 
8 | 143 | LEIDR‘ 55.46277 
4 i КЫ | 1,2997 | PUTERA 
5 38 ,| 6.1753 35.9517 
B | 73 i 5,1054 | 11,0681 
7 65 | 1.8003 15,8084 
8 38 5.6101 51.5178 
9 45 ; 5.0619 | 5š.5797 
10 L 4,9847 60.5846 
11 27 3.4591 &1,024й 
12 28 | 2.3817 65.1087 
13 i aa : 2.7503 69.1589 
11 i 23 Í 83.6570 72.8159 
15 | 15 i 2,51883 15.3617 
16 | 17 : 5,0790 78 .0:37 
17 | 14 2,3178 80.8313 
18 11 : 9,6485 83.5818 
19 i 4 0.4074 3з.» 
20 11 ' 3.0315 8B.u787 
21 7 2.0676 83.0114 
22 2 0.2366 89.9779 
23 3 0.4787 89,8506 
24 3 0.6251 00.4817 
25 | 2 0.1786 i 90.0603 
26 ! 3 F 1.8518 92,5141 
27 | 0 i 0.0000 | 825141 
28 3 0.3554 93,8395 


Ж, ЖЛ, ИРЕТ ERA o 

中 国 社会 科学 院 语言 文字 应 用 研究 所 在 35220 条 双 次 节 PI, 
5423 条 三 音节 词 ,4354 条 四 音节 词 共 44997 条 词 的 现代 汉语 普通 话 
词汇 数据 库 范围 内 ,对 普通 话 的 声调 进行 了 一 些 静 态 统计 ,以 使 从 
统计 学 意义 上 揭示 汉语 声调 的 统计 规律 性 @ 。 在 多 音节 词 或 词组 
О, ТЫН А, Mie АН АМ АЈДЕ, 
可 以 反映 普通 话 四 声 、 轻 声 组 合 时 表现 由 药 统 讨 规律 。 

双 癌 节 词 声调 结构 疾 率 如 下 表 所 示 ， 


31.3.8 
' 

E 号 | 声调 结 的 ”出 现 次 数 | 频率 (%) Жүр) H H 

| . 
I Во 2 i 4085 1 11.59 | 11.59 R fh 
2 | H 去 | 3182 9.03 20.62 ж 定 
зт # | 2988 8148 |] 29.10 É Ж 
ао om |O 230 1 вуз | 35.82 й Шш 
5 | boo 232% | 6.60 A RE 
6 ГЕ 阳 232 | 6.56 48,98 А & 
7 | 去 用 2202 | 8,53 55,51 С Ж 
8 | Н B 1 2164 | 614 C 61.65 参 观 
9 | 去 上 | 1750 ; 4.96 | 66.61 :部 首 
10 | 去 EH | 1724 ! 4.89 71.50 J. Z 


ЖП НИДЕ ЛОЙ, 31.3.8rh Ap ОРЕ, В 
1—3= fhya Б ИУ] КУ АИС hg NM ЕЗУ 1] 29.1, В 
ТАТТАН ИТА МУ hy ЖЕЕ ЖЕЛЕЛЕП 55.515, 
其 中 ， 出 现 频率 最 高 的 是 “去 声 + 去 声 ” 结 构 占 11.5951 。 

三 音节 词 声调 结构 频率 如 天 1.3.9 所 示 。 

三 音节 词法 有 声调 结构 100 种 ,每 种 结 的 都 存在 着 对 应 的 普通 
话 词汇 , 表 1,3 .9 中 只 列 出 了 出 现 频率 较 识 的 前 10 种 。 出 现 闫 素 最 

Ф 刘 连 元 ， 马 亦 见 ,普通话 声调 分 布 和 声调 鱼 构 频 度 ,,* 语 文 建设 ?， 
1986 年 ， 第 3 期 。 

+ Zá. 


请 的 声调 结构 是 “去 声 + 去 声 + 去 声 ”, 占 全 部 三 音节 词 的 3.42%。 


#1.3.9 
I 

[у я | 出 现 次 数 | И (14) Жил | Ho i 
1 去 去 Š [ 185 l 3.42 i 3.42 x шя 
2 H J; Ч 139 2,56 598 | НЯ 
3 去 阳 & 158 2.32 830 | Ж 
4 中 ШП 去 123 2.24 10.54 | ДИЙ 
5 + 19 EH 120 2.21 12.75 1 ЖЮ # 
6 去 去 阳 115 2.12 14,87 | х 
7 | H ж 113 2,08 16.955 | 方块 字 
8 去 阳 FH 111 2.04 18,99 [ДЕ 3 
9 Н B 5 107 | 1.97 20.96 MADI 
10 去 H 去 102 | 1.83 22.84 办 公 室 

TAEWA HMR ТАЕ Лл: 
31.3.10 
! | : i N : 

ж 号 | зин | 出现 次 数 saco] THAE 例 ш 
1 明明 去 小 | 104 | 2.38 | 238 | ЛИЯ 
2 明 阳 去 去 8з 1.88 62 | KERM 
8 i HRH 69 1.58 5.84 | Ж ЫЕ 
4 | PAEH 57 1.30 Telda | БАНИ 
5 AK J: 3: 5 49 1,12 826 + 
6 EMAR 1 a7 | LOF 9.33 1 TERA 
7 А 45 1.03 10.26! RRRA 
8 ШШЕ | 42 0.98 1 11.52 | ZAM 
9 mia L 5 43 0.56, 12.58 | 兵 强 马 壮 
10 BI E 42 0.96 13.24 | БЇТ = 


Н В 5458135003 Е ЕНТ FUL ЙЫНА 
TEHER ТИ ТИПТ. КИП 3909Ж, 67,80; 不 存在 对 应 
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WERA РНР Афв, 32,234 ВЛЕН. И Н 
结构 者 是 包含 一 个 或 多 个 轻声 党 节 的 ， 其 中 只 有 一 种 全 外 ,是 “去 
声 + 上 声 + 上 再 + 上 声 "- 才 1.3.10 中 只 列 尖 了 出 现 频率 较 认 的 前 
10 种 ,出 现 闻 率 谍 高 的 四 彰 节 间 声 调 结构 是 “阴平 + 阴 + 走 声 + 去 
y", H2.3809. 

RLI LLEI, =. ДИВО МАЖ ИЕК ВЕНЕ УА 
HARR ТЯ УИ ВЕ, ЕЕ ЕКЕУ Z-A 
Н, мааи АА ИН И ШКЕ, пр Даң 
а р a Т Z K BBC ТЕ i, 


321.3.11 


Жав | 第 2? 段 | mak | ар 


IJE 导 | 1 一 ; 4—7 | 8—1 ! 12—20 
aang [ИЙИНЕН s 1 jo d ° 
f 3 рл 26.1% ` 20,5610 ' 23,797 
E 计 ， 29.15 55.5191 76,073 | 99.86% 
5 导 | 15—12 13—28 20—-40 5—100 
AWH 声调 结构 数 日 12 15 21 51 
H 分 E} 286.48% | 24.06%: 21,47%; | 24,51% 
LH И 26.4855 | 50.5424 75.0120, 99,52% 
гў B| 10—24 | 25—68 | 67—133 131—500 
үк | ТИБИНЕН | 2а 42 67 | 367 
H 分 H | 28,12%; | 25,23% | 4,8800 | 23001064 
m 计 25.1294 | 50,3534 | 75.230 | 98.371 


— —_ i | 
前 而 说 过 ， 根 据 在 动态 使 山中 的 汉字 进行 统计 ， 普 通话 中 以 
去 声 最 多 ， 鼎 了 动态 使 用 中 的 普通 话 全 部 声调 的 35.72549, W 
2, 普通 话 声 调 在 静态 的 词汇 数据 库 中 的 分 布 情况 又 怎样 呢 ? 
在 词汇 数据 库 中 存储 的 44 977 条 词汇 中 ， 音 节 总 数 为 104 123 
Ts ШӨ ГАИ ДЕШЕ 1.3.12% 
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Н z x I E 
же | 调 mawk | aoo | PIAR 
a 1 
t оо 35 560 30.2311 f 82.2311 
2 н + 23130 | 243339 1 66.2660 
3 四 x nt Gg 23.7123 ， 80.0783 
4 L i 1785) ol jr | nz,2244 
5 轻 р 2890 f 2.7756 | 100.0000 
® il 104 123 1 190.0000 


表 1.3.12 与 天 1,3,3 相 比较 ， 可 以 看 出, 不 论 在 动态 使 用 中 还 
是 在 带 态 词汇 数据 库 中 ， 普 通话 的 声调 搂 频 率 递 减 的 顺 髓 都 是 ， 
去 声 一 阳平 一 阴平 上 疡 ~ 轻声 。 

果 把 上 面 的 绒 果 再 与 国家 标准 汉字 编码 字符 集中 记 妆 的 

6 763 个 汉字 的 声调 比较 ,可 以 发 现 这 样 的 声调 分 布 顺序 仍然 不 变 。 

在 6763 个 汉字 中 ,如 果 把 一 字 多 调和 一 字 多 章 看 成 基 不 同 的 
+, ЖА, 086 763 个 汉字 就 变 为 了 7 778 个 字 , 多 出 1015 个 字 。 垃 
1.3.13 中 列 出 了 7778 个 字 中 的 声 阐 分 布 情况 。 


381.3.13 
W | ж ж Жоо юршш 
1 E 1 2485 | 32.0005 51.6005 
2 H 平 1923 1 25.3538 7 57.23141 
3 EJ y [953 ciRGT а,5405 
4 d: ji 1300 16.71133 ИБТ 
Ho т 5A ATAR 7 100,0000 
合 ir | 7778 i 100.0000 


АА. 
КУ АЯ Т AAMER TRNEM, 

ВЕ SUN TE Pr Y АЕ АТА (Р АЕ ДЇ ИГИ АЙП 09 

不 同位 置 分 布 的 情况 ， 这 样 的 研究 用 助 于 我 们 了 解 单词 和 间 组 的 
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ИРЕ PRE КОМЕК. AARE ТОШТЕ ЕЕЕ АНС rR ИЧ 
布 旺 现 出 有 趣 的 统计 规律 性 。 下 面 分 别 加 以 说 明 。 

词汇 数据 库 中 前 双 音 节 词 总 数 为 35 22028, 声调 在 双 音 节 词 
的 首 音 节 币 来 音节 的 分 布 数据 如 表 1.3.14 所 示 。 


Ж#1.3.14 
W т T * # + 
ШЖ | ВЕСИ) 出 现 次 数 [# (9%) 

EJ 平 9910 6516 39.67 
BJ ох 8624 8494 49.41 
上 j 6283 5763 47.84 
去 声 10404 12575 54,72 
& иж 1950 100.00 


从 表 1.3.14 中 可 看 出 ， 双 音节 词 中 阴平 在 首 音 节 启 多 ， 去 声 
在 来 将 节 居多 ， 阳 平和 上 骨 的 分 布 请 形 差 不 多 ， 都 是 从 首 音 节 到 
末 音 节 略 有 了 减 小 ， 呈 近似 均匀 分 布 。 

词汇 过 中 前 由 音节 词 总 数 为 4 354 条 ， 声 调 在 四 并 节 词 的 首 
音节 、 第 二 音节 ,第 三 音节 和 末 音 节 的 分 布 数据 如 表 1 .3.15 所 示 。 


381.3.15 
首 次 节 | 第 二 音节 йл | 来 оф Y 
M 开 TCP] á m нш щт ,百分比 | 出 再 HAH 
I 这 数 "i wai m © | "i w 3 t 


BIE | 1263 | 29.54 1223 | 26.27 1030 j 24,09 : 859 
阳平 | 1129 | 26.32 | 1145 | 26.69 1086 ! 25.31 | 930 | 21.68 
„ЫЗ | 746 [258,25 | 755 |25,55 то | 24.40] 733 
Зин |1210 [21.16 | 1244 | 21.76 1504 | 26.31 11759 | 30,77 
нао j 0 85 | 49.71 | 13 | 7.0] 73 | 42,69 


县 表 1.3.15 中 可 看 出 ， 声 调 在 四 音节 词 中 的 分 布 与 在 双 音 节 
词 中 的 分 布 有 粗 同 特 虚 ,都 是 阴平 多 居 首 音节 ,去 声 多 居 末 音节 。 
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YT SUM MOD E by y UE ҖИ И СЗ 涧 下 的 分 布 特 
Pis МДЕ ЖЕЕ QI TARAA (13 De 


: Ва ШЕ g aH 
einni 


图 1.3,1 市 油分 市 的 直方 图 


ap HAS АЗ 


AAL.. PRAHAS, B a ya РГ ip Bl 1 ДЕ Aria] rh 
НЛ АН Jk АТТ, PPZ TES, Ал LE 
TBA Ж ЕЛЕЙ; SARETE, АЛТАН 
去 声 分 布 数据 是 递增 的 ， 限 平和 上 声 从 首 音节 到 末 音 节 呈 更 略 降 
造势 ， 近 似 均 名 分 布 。 阴 平 的 调 型 是 高 平 ， 去 声 的 调 型 是 全 降 。 
发 高 平 调 时 ， 声 带 振动 频率 高 ， 声 门 保持 紧张 状态 ;发 全 降 调 了 时， 
НЕСЕ ТЕ, Т КАРЬ. ЕЕЕ ИЛЕК 
音节 中 的 统计 分 布 规律 似 和 平反 映 了 声带 在 发 一 个 单词 或 词组 这 程 
中 ， 先 紧 后 松 、 由 紧 变 向 的 总 的 自然 态势 。 

词汇 数据 库 中 三 府 节 词 总 数 是 5 423 条 ， 声 调 在 三 音节 词 的 首 
划 节 、 第 一 次 末 和 束 音 节 的 分 布 数据 好 表 1.3.16 所 孙 。 

从 表 1.3,16 中 可 以 看 出 ， 韦 调 在 二 音节 词 中 的 分 布 汪 保 留 车 
EMERY ҮЗ ПЫЛ АЗА, HFE, MWE E 
声 从 首 音 池 向 来 音节 的 分 布 是 减少 的 : ЕЛА РЕЧНЕ ЗУ ВБ 
分 布 是 增加 的 。 厅 同 草 是 分 布 购 上 升 和 十 降 的 幅度 变化 比较 平缓 ， 
大 多 数 呈 现 出 铅 汐 急 分 布 过 渡 的 站 势 ， 而 且 ， 阳 平 在 第 二 音节 时 
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Жаї.3.1й 


ü то таст [жо # 


ииий ийни шве дани яка нени 
Ho F 1439 | 35.97 7 1399 | 35,07 : 1155. 28.95 
Mi w 1264 | 33.29 1394 | 34.87 ; 1309 31.34 
&ой Lors 1 37,80 890 io ишп | 883 21.00 
р Н! 1847 03,86 1625 2 21.35 | 1663 34.25 
轻 н o j 286 | 37.13 jeg 62.81 


稍 有 升 高 。 三 音节 词 的 构成 方式 一 般 有 三 神情 况 ， 
ОС + ТТ Ср “ALR 
CHEY т арчу + фырт 《如 “实打实 ”) 

CHW- BEI (ОШ “ЈА 

这 三 种 构成 方式 总 性 来 说 是 左右 对 称 的 ， 这 种 对 称 性 可 能 是 
导致 声调 痊 三 省 节 词 中 向 沟 句 分布 过 流 的 奈 因 。 

从 表 1,.3.14、 表 1,3.15 和 表 1,3.16 中 ， 我 们 还 订 以 看 到 普通 
е АЕА: ЖЖ, ш, ШИНДИ ТЕ КИШИ 
J ЖИ RE KOS D.L; 三 音节 词 轻 声 也 集中 在 来 音节 
E, 062.819, 四 音节 词 轻声 集中 在 第 二 、 第 四 音节 上 ,分 崭 占 
49.71% 和 42.69%。 有 趣 的 是 ， 轻 骨 在 四 音节 词 中 的 统计 分 布 与 
音乐 中 每 小 节 4 拍 “ 强 一 绊 一 次 强 一 弱 ” 的 梅 式 十 分 类 似 ,这 种 轻 
声 与 非 轻声 音节 的 交错 配合 ， 使 得 四 意 节 词 的 节奏 显得 很 分 明 ， 
这 是 汉语 语音 富 于 音乐 性 在 统计 方面 的 一 个 明证 。 


第 4 节 方言 研究 中 的 统计 方法 


我 国 方言 复杂 ;语言 党 者 很 早 就 进行 了 方言 的 调查 工作 ， 积 
累 了 太 量 的 资料 ， 取 得 了 很 天 的 成 绩 。 近 年 来 ， 我 国学 者 把 数学 
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НАТАТ, HOUSEA ОС Е, АЕ 
现代 议 语 诸 要 素 定 量 分 析 的 一 项 新 的 探索 吓 。 

对 汉 庶 方言 进行 分 区 的 统计 方法 ， 就 是 通过 对 一 系列 较 能 说 
明 上 方言 落 异 的 项 自 或 特征 进行 统计 ， 把 方言 之 间 的 异同 综合 成 烤 
кин Жл Віна јн ЕТГАН Ж, 

BAA АГЫ ЛЕНЕ НО ДИГ АО, Ay AT 
павя, спи аала, 
КН, РААК Bl, НЕЛЕ ЖЕЛЕ Н 
ЮА, ШОУ ВГ NASA Ц АЕРО, M 
以 ， 可 PIR ТРА ЖЕТИШЕТ, БАШ ЖАПЫ УТ 
ZEARRA, ERAS EROK АОИ. 

调理 点 共 选 取 了 妞 下 17 人 个; 北京、 济南、 西安 水 原 ,汉口 ， 
Жї, 1620. ЖАЙ, ам. КЪ, Wik. МА, Н, P M. E 
江 、 祁 州 、 福 州 。 在 北京 天 学 中 文系 编写 的 (汉语 方 育 字 汇 * 中 ， 
对 这 17 个 方言 局 的 2700 多 字 者 分 别 注 有 以 切 欧 、 等 前 及 前 图 为 枯 
据 的 中 古音 和 用 国际 背 奈 标明 的 现代 读音 ， 它 们 蔡 本 上 能 反 外 这 
17 个 方言 点 的 语 齐 耐 艇 。 将 5“ 议 话 方 加 字汇 y 葵 入 计算 视 、 建 立 了 
机 读 的 电 地 学 拱 DOC， 这 样 , 便 可 直接 和 用 DOC 来 进行 统计 和 分 
析 。 

议 笛 的 音节 是 由 声母 、 欧 母 和 声调 组 成 的 。 声 母 、 戎 母 处 于 
ВБК, ЛЬ РАТЕ ВЕК, ВУ ЕВ ВАННЯ РР Е 
В. А, ОНГ КОЛЕЖ, 
一 个 方面 是 声 世 和 前 母 ， 另 一 个 方面 是 声调 。 

жЕр ААО ос, 19, ЭР, BH. ЧЕ, Wk. ж, 
М, ж, ®, т.і. SH. а ю.и.к. М, Ж. WW. 
М. Ë. Ж В. Ж. ж, Е... М. i, фо ж 0. 
ж пазнан ман 


ПО ERR UE EEDE Е A (CINE ЫЛЕ»), 
上 海 教育 出 版 社 ，1889 年 。 
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MATAA RA ЕЛЕН BB. В, UA л 9256,38 
ЖОЛАН yrER$rit2 Cp, Pa Б, т), СПК ЗТ: 


FLA diye 88" RERIT rh IA 
PON CÖBARNURAPEKAMET EMA 
ру АРТУРУ: 
[p] 88 59 84 89 88 87 839 90 89 88 85 86 85 87 85 86 85 
[Cp 5 2 32 3 5 B 0 0 4 8 6 7 5 7 5 7 
[b] 0 ü 0 0 озу 0 3 106 0 оо 0 оо O 
Em] 1 1 1 1106 0 00 0 0 O n о о о б 


‚ МЕНЫН TEJ Н 51628," 38. Т, ЈЕ, Ж,Ю, S. lH. 
效 、 果 、 翁 、 罕 、 极 、 曾 、 广 、 成 . 深 "。 每 一 类 又 根据 中 古韵 部 、 
四 声 和 “等 呼 ”的 情况 分 为 若干 单元 。 例 如 ,“ 通 ” 摄 类 的 186 字 
可 以 分 成 如 下 8 个 单元 ， 

1.4.2 "ERAR $ 个 单元 


| 
字数 | 单元 | # Ë T g 


1 [REE] 合 口 一 等 | 48 | 5 |4 3 gne 

2 |яйй | enza] 27 | 5 коо augl 1 
3 JE 合 口 一 等 | в | 7 | WH с@ап=ш 1 45 
d B 台 口 三 等 25 j 8 Ж ЕЛ 18 


— 


“WW Ui lI р “Ж, Ж, E аЗ WJ 485, E 
现代 19 个 方言 点 中 欧 母 分 布 状况 如 表 : .4.3 所 示 。 

直 调 的 情况 比值 偶 染 。 下 古音 系 声 调 的 调 类 有 平 、 上、 去 、 
六 网 类 ,它们 在 现代 方言 中 演变 分 全 的 情况 与 中 古 声母 的 清和 独 ， 
送气 和 不 送气 有 着 密切 关系 ,所 以 ,把 它们 按 囊 1 .4,4 归 类 。 

中 十 平声 清 声 母 《 如 “春天 ?》 的 567 字 ， 在 现代 人 1 个 方言 虑 
中 的 分 布 情况 刘表 1 ,4.5 所 示 。 

得 出 了 声母 萌 母 的 数据 和 声调 的 数据 之 后 ， 利 用 计算 机 对 这 
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1.4.3 Т" ge a" MAOA ARRAS y fs 


wc rr errr к 


лр dk 3 N K DB W B MO 8 K 9 W É Y M W Wi 


gs 

Fa “Ui 

Eu S ЭНОШ A 
[un] : 4242 0 45 8 0 O 
199] го о 43 0 4048 0 
[лч соо 0 0 nd 
Lan] l 0 60 Q 0 Ü O 
әп] | 0 n бо б O 
[Фуу] © 0 0 6 p O O 
зу] ' G 0 б 0 6 0 O 
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表 1 .4.4 Ер КЫКЕ ЕЗ 

古洞 类 т: L £ А 
些 数据 进行 相关 系数 的 统计 ， 得 到 每 两 个 方言 点 之 间 在 声母 前 母 
方面 和 声 凋 方面 的 机 关系 数值 。 这 些 相关 系 独 值 幅 示 了 方言 点 之 


Їз] УН Н. ЭЕ НЕЕ ( 见 表 1 .4.6 和 或 1.4.,7) 
上 从 表 1.4.6 中 可 以 春 出 在 声母 鹊 每 方面 各 方言 点 之 间 的 接 迟 
程度 。 鲍 如 ， 北 京 话 与 西安 话 之 间 的 丰美 系 煞 尼 0.8847， 与 苏州 
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50.3493, Fj AMPS О 4330, Жүй, ДЕРИ ОУ НИ 
Жык зн ЖЕЕ SE PTI Б I AGS, PHI BPA НЕ, ТЕКТЕ Б 
州 话 的 接近 程度 又 超过 了 它 与 广州 话 的 接近 程度 。 

其 表 1.4.7 中 可 以 看 出 在 声调 方 夯 各 方言 点 之 问 的 接近 程度 。 
偶 旭 ， 北 训话 与 西 必 话 之 间 的 相关 系数 证 0.9827， 与 苏州 语 是 
0.7023， 与 太原 话 是 0.3076， 可 网 ， 在 疝 调 方面 ， 北 京 揪 与 西安 
话 之 岂 的 控 近 程度 交 其 于 它 与 苏州 话 、 术 原 话 的 悉 近 程度 ， 而 北 
京 话 上 与 苏州 话 的 控 近 程度 信 越 过 了 它 与 太原 丘 的 接近 穆 度 。 太 虹 
话 与 各 个 方言 点 在 声调 方面 都 有 很 大 的 攻 离 ， 与 它 最 接近 的 是 梅 
ER, ТЕН КИЧИ, EE НОРОК ТЕА ГЕ НУ 
BERO” ШКЕ ОЗЕН ШТ УЕ SLR А Е r a З DQ 
注意 。 

为 了 求 得 在 语言 上 对 汉语 汉 方 言 点 的 相 尾 美 系 有 一 -个 总 的 认 
说 ， 殴 到 把 声 址 前 母 和 声调 两 方面 的 岩 素 综合 超 米 考虑 。 闪 上 此， 
把 每 两 个 方言 点 癌 在 声母 萄 母 上 上 邯 在 声调 上 的 机 关系 数 市 加 再 业 
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THE ИШАН FRAJERA, RS 
АИ (ШЕП) 聚 类 树 形 图 。 树 形 图 的 横 座 标 是 
粗 似 性 尺度 ， 标 尺 从 1 到 0， 表 示 平 均 接近 程度 的 递 沽 或 平均 差异 
程度 的 递增 。 

从 图 1.4.1 的 聚 类 树 形 图 中 可 以 看 出 ,太原 话 与 各 方言 的 接近 
程度 都 比较 差 ,独立 出 来 作为 一 种 单独 的 方言 。 在 接近 程度 为 0.75 
以 上 的 平面 上 上， 北京 、 济 南 、 西 安 、 扬 州 、 汉 口 、 成 都 组 成 了 北 
方 方 言 区 ， 长 沙 、 双 妖 组 成 了 湘 方言 区 ， 次 州 、 温 州 组 成 了 吴广 
ШК, EM. ШП, MAARTAJAK А. ЫН, MS 
HR ЗЮ, АУРЕ, HEB РГС, TMAS 
PRE, BHURUPRBES0 HRP, ЖЕЛП X n Ж 
三 支 一 支 是 北方 方 育 和 客家 方言 一 支 是 湘 方言 和 吉方 言 ; — 
гт. Я YT. HILERO. AIET, 
北方 方言 与 容 家 方 皮 、 湘 方言 、 乾 方言 就 都 组 合 在 一 起 ， 它 们 与 
SEERA RRDA. AYN, SHEMN, BA, 
这 个 聚 类 衬 形 图 鲜明 地 表现 了 汉语 各 火 方言 区 的 组 合 情 况 和 它们 
之 间 的 相互 关系 。 

在 各 类 方言 区 内 部 ， 聚 类 树 形 图 也 表示 由 了 各 方 家 点 之 间 分 
歧 的 程度 。 酒 方言 内 部 分 歧 最 大 ， 其 次 是 吴 方 言 内 部 。 北 方 方 计 
内 部 则 形成 三 个 分 支 ， 华 北方 言 和 西北 方言 为 一 支 ， 江 淮 方言 为 
一 支 ,西南 方言 为 一 支 。 各 次 方言 内 部 的 接近 程度 都 在 0.93 以 上 。 
阅 方 言 区 内 部 ， 福 州 话 与 厦门 请 首先 组 合 起 求 ， 然 后 再 与 湖州 语 
相 结 合 。 这 些 结论 与 根据 非 狐 学 方面 归纳 出 来 的 信 困 是 吻合 
的 。 可见， 统计 数学 的 方法 为 汉语 方言 的 研究 开 余 了 新 的 放 
径 。 

我 国学 者 还 利用 计算 机 对 方言 区 的 人 学 习 普遍 活 的 情况 进行 
了 统计 分 析 ， 摸 洲 了 学 习 营 通话 的 礁 点 ， 从 出 促进 了 推广 普通 活 
的 工作 。 云 南 师范 大 学 利用 计算 机 ， 肖 过 对 四 个 年 级 几 十 个 班 的 
学 生 进 行 测试 ， 取 得 了 两 千 多 个 常用 词 的 统计 数据 ， 分 析 了 云南 

+ 90 • 


ЛАЗЕРА B BB 81 Ba, Т 
他 们 采用 “难度 信 ” 来 发 示 某 语言 成 分 的 易 掌握 程度 ， 其 公 
RA 


R 
p=, 
N 


其 中 ，P 表 示 难 度 从 ，R 是 某 语言 成 分 的 答对 人 数 ，N 是 参加 
测试 的 总 人 数 。 显 然 ， 难 度 值 P 越 大 ， 管 对 的 人 越 多 ， 和 应 的 活 
言 成 分 越 容 易 掌 握 。 

例如 ， 云 南 人 容易 读 错 的 声 坪 难度 值 比 较 如 表 1,4.8 所 示 。 


#1.1.8 FE BF3E E tH iu Et 

кай 识 读音 Е | kas | mts я F 
n | ! 1 85.16 14.44 5.38 | Шш Ж 
| п | 83.17 16.83 10.78 жол 
sh | s 77.05 23,35 8.98 m E 
zh z | 73.3 26.8 10.75 ж № 
ch с | 71.63 28.31 12.79 Wo 
s sh x 71.33 | 28.87 | 12.06 КА. 
ç i ch 68.50 © 31.50 10.45 | 才 此 
z zh 67.78 32,232 12.86 Ж 总 


H TS У ВЕБ п, |, KLL PEREA RE 
RE An 的 比例 很 接近 ， 误 恋 率 也 不 高 ， 只 要 努力 学 习 ， 云 南 人 
TEBE KANKA. ARL SREE zh, chsh 
z, C, САН у ПРАВЕА ИЛЕК К, 902. с, s REA, 
ch, зһ ЖЕНЯ m aha FiBzh. ch. Еу z.c.s BRRR, 
IERRA, ИТЕ ЫЕ32,226, ИГ, EC yz zh ру 
HERE Т N ОВ УН ЕР АЈ F B ар, 


T 下 洽 光 ,* 云 南 人 学 普 酒 活 的 计算 机 统计 研究 ?p(t 去 南 语 六 研 先 })， 
19884, 111. 
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第 5 节 计算 风格 学 


风格 是 人 们 在 交际 泊 动 乎 形成 的 个 人 谊 语 特 征 。 这 各 风格 在 
ЖО ЕП, MEANE Н ИГИ ЛЕ EREE А, 

Pil, HERRAR BRE АТ ЯД АДИ, БРОНЗА 
长 ， 就 是 单词 中 的 音节 数 ， 所 谓 杀 长 ， 就 是 句子 电 的 单词 数 ， 对 
荣 个 作者 的 词 长 和 何 长 进行 摘 述 ,需要 计算 平均 鹿 蕉 和 尘 均 名 长 。 

作者 文章 中 的 音节 总 数 被 单词 总 数 来 除 记得 的 商 ， 就 是 该 作 
ж ЗРЕЛИ. AAT: 

1 


Ma =. 
N 


AT, „к УН рК, МАЛАШ М, „р 
示 平 均 词 长 。 
作者 文章 中 的 单词 总 数 被 句子 总 数 来 除 记 得 的 离 ， 吧 做 平 沟 
М. AAWE: 
Ti L, 
My 
AH, ГЕНРИ S S, MERITAR MER 
平均 名 长 。 
HTL,- AN， 它们 独 开 示 文 章 中 的 单词 总 数 ， 我 们 可 得 


ap obh, „be 
М, е TESO 
从 而 有 
L,= Ж.м,М, 
有 人 曾 对 20 位 德语 作者 葛 22 部 作品 进行 过 平均 词 长 和 平均 和 
长 的 统计 分 析 。 
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зоол Os P B ko Magui Erich Kästner, 1849 
— 10747 .小 说 家 法 拉 达 CHans Fallada,1893—_1547), 15 A ВК 
(Rainer Maria Rilker, 1875—1026), А.Ф Рр (Theodor 
Ғешапе, 1819—-18982, ЛН) (Theodor Storm, 1817— 
1888). ЛУ 582 81 ТА ЖЖ a: 32 gk ШАН. 85 (Thomas Mann, 
1875 一 19557， 许 人 沙洲 壹 【Adelbhert von Chamisso, 1781—- 
183r ЛС Негтапп liesse, 1877—1962), НЕН 
D tuak EE i et Werner Heisenberg, 1901—1976). 
Wika k (Wilhelm Hauff, 1803—1827), B mgA AREI R 
AR БИНАН САЛЬеге Einstein, 1879—1955), я paw ar 
索 墨 非 尔 德 (4Arnolid Sommerfeld, 1868—1951), З 
绍 尔 (Robert Sauer), ў 55597 И (Johann Wolfgang von Geothe， 
1749—1832), jN 学 家 和 详 员 尔 物理 奖 区 得 者 普 归 元 (Мат 
Planck, 1858—1947). Mie ask (Ernst Hoflmann, 1776-- 
1522), Pr A R38 K Closeph Freiherr von Eichendorff, 1тзя 

бат. {Аё НЕД (Georg Wilhelm Friedrich Hegel, 

тута, TRAE qu Ses зу А Karl Матх,1818—1883), 
ЕЗ МЕТЕ (Heinrich Schliemann, 1822—1990), 

22 部 作品 中 ， 有 文学 作品 (其 中 包括 小 说 和 诗歌 >, 文学 理 沦 ， 
哲学 、 经 济 学 、 海 古 学 和 自然 科学 《 包 氛 现 论 物理 和 计算 机 科 
ZEN 

FHRA #15. 1R 

RLS. IP, ЖЕНТЕК, KEARAH ТЕМЕ 部 W 
mo АМЕ ЛЛ: ERII ЖИ UES, AREH 
多 男 若 ) 是 作 事 长 许 ( 序 导 15)、< 诗 与 真实 ?是 文学 型 论著 作 ， Жж 
Ей, олт нй, WERA AEE, MERA 
DA EZR BGPA ИС а УА, WARR, 351—6 
Wiki qo 

HALD. 1A HF ДН ga F RUR ДЕ. 
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ПЕК GESIS 


序号 | 作者 名 Му! z | E 者 加 | Mw М 
1 ЭЖ. |1. Ta 8. „32| 13 R 2.270 22.500 
2 | ERE 11.451 8. ла 14 | СОНУ | 1.715 22,724 
з ИУ 1.53010.678] г 证 ?) 
4 ЛЯ 12414.440! 15 \ ИСАИЯ | 1.575 22,825 
5 Ср 7 1.63118.825 т) 
6 | FEHI g 1.80418.850 16 : ОҢ 2,019 23.531 
7 рж |1.61219.754; 17 жя 1.721 24,808 
8 | 海 斯 1.71620. | 13 | 埃 森 多 未 1.556; 24.900 
9 | WWE 1.91920,530 19 歌德 (< 尝 与 真实 >) 1,686| 29,100 
10 ÆR 1.64820.700| 0 | 1.836 31.381 
п (ZANA 1,929°1,097! 21 | BES 2,021 32.668 
1? REDERE, 2.100s1.597| 2 йна 1.892] 42.134 


A. шкал E Ea Е, WRR, šE 
ЫК, Gn b m. BRA ЕТЕ, Wa F3 g k К 1l8— 
ТАНЕ, WEKE, ВЕК. MHR BEE ШШ Дл, 
ЖІ. ЗР ЛУ ЖИЕ ЛИЛЕ НЕЯ, ШИШ. W 
ТОЕ ЫЗ АЁ ЖАШЫ а 35. МЮ. ТЕК ИУ 
%, ПОЕНЕ ОВТ, 

第 二 、 表 1.5.1 中 ,平均 名 长 最 高 的 是 人 文科 学 和 社会 科学 家 
的 作品 ， 如 施 里 曼 的 作品 < 特 洛 依 演 占 记 ，， 平 均 句 长 为 43,134， 
为 小 悦 家 凯 斯 畦 奈 作 品 平均 名 长 8,432 的 四 信 和 多。 马克 思 的 < 资本 
论 ? 平 均 徊 长 32.668， 而 11 篇 由 小 说 家 、 文 学 家 和 写 的 小 说 散文 5 序 
251—8, 10, 17118) 的 于 敬 句 长 是 17.292， 几 平 只 有 * 资 本 论 y 
平均 句 长 的 一 半 。 节 有趣 蕴 是 德国 龙 文 春 歌 德 的 作 员 ， 人 性 的 文学 
理论 著作 * 读 与 真实 ?的 平均 句 闪 为 29.100， 这 个 数 衬 远 远大 于 他 
ШЙ ЖЕ АЖ ш» СЕНА 22.7241) НЕЖИН Ка 
Тр» (平均 名 长 22.825)。 由 此 可 以 看 出 ， 句 子 长 度 兢 实 是 文 
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体 风 格 的 一 个 重要 标志 。 

第 三 、 从 表 1.5.1 可 知 ,平均 词 长 与 平均 和 铝 长 之 间 并 没有 必然 
的 联系 。 有 平均 词 长 超过 2 的 共有 四 位 作者 ,其 中 普 计 克 和 索 暴 菲 水 
德 是 理论 物理 学 察 ， 绍 条 是 计算 机 科学 察 ， 马 克 思 是 无 产 阶级 革 
合 的 理 诊 家 。 前 三 位 作者 町 词 唱 长 ， 伍 他 们 的 名 长 具有 21 一 33 之 
Be ET PE, MIHE, WKAR, MESo akt 
较 - 长 ， 居 第 二 位 ， 淖 来 ,马克 已 是 一 位 善于 以 长 词 造 长 何 的 作者 。 
ERE., КЖЕ. KE, TRR, MESARE ВАЕ 2 
ЫК, bJ SBS Е, APRS A, 1016201.556, 
RATARA 〔〈 词 长 为 1.530》 和 里 尔 克 {( 词 长 为 1.451)， 是 善于 
用 短 词 的 ， 而 他 得 的 名 子平 天 名 长 为 24.900， 居 第 1 位， 可 见 他 
ФТ ШЕПНЕ), 

通过 以 上 上 分析， 我 们 可 以 了 解 到 不 同文 体 , 不 同 作 者 的 反 格 。 

190148, WEFR (5. Y. Sedelow) 提出 了 “计算 风格 学 ”， 
它 是 用 计算 机 为 手 晓 ， 对 不 同 作者 的 风 桥 进行 统计 、 分 析 、 计 算 、 
Ен Ру ТЕВНО, 

计算 风格 学 的 产生 和 发 展 ， 使 作品 的 风格 的 统计 研究 有 了 一 
个 科学 的 理论 基础 。 

计算 风 猪 学 被 成 动 地 应 用 于 “作者 汰 证 ”的 研究 中 ， 解 决 了 
其 中 的 许多 令 人 转手 的 困难 问题 。 

1964 年 ， 美 国 统计 学 罕 摩 斯 素 基 (Р. Mosteller) АЖ SEE 
(D. L. Waluo EUT LAEE I KENA (Federalist) 
HRE тан su ЖД НК By ЗЕКЕ IE ARTIA: 
—{ 556 5 Bl pra Pe Wak i (Alexander Hamilton, 1757— 
1804), — 3 3 ТЕДА ga (Ташев Madison, 1751— 
1836>。 当 这 两 位 统计 学 家 开始 进行 统计 分 折 . 肝 ,和 通 到 了 一 个 极 去 


D 5. Y. Sedelow, W. А. Sedelow, А preface tO Compatatonal 
Stylistics, System Development Corporation Document, 50-1334. 
1964, 
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WEWE ЖЕП ЖЕЙ, {ЕЖЕ ЖЕ НЕЕ РЫ BS TEK MMEA 
的 已 有 著作 中 几乎 完全 租 同 ， 于 是 ， 他 们 只 好 放弃 平均 句 长 这 个 
指标 ， 转 而 从 用 词 习惯 上 来 拒 出 这 两 食 作 者 的 有 区 别 性 的 风格 入 
征 。 他 们 终 计 找到 了 这 两 位 作者 在 其 些 量词 的 使 用 上 庙 明 显 的 不 
同 ， 汉 效 尔 者 在 他 的 18 逢 文章 中 ， 有 14 箱 用 了 enough 这 个 问 ， 而 
麦迪 识 在 他 的 14 篇 交 章 中 ， 根 本 不 用 enough, WRR A A 
while, 而 类 过 迁 总 是 用 Whiilst; WRES Muupe mÆ 
进 则 很 少 用 。 这 样 ， 他 们 便 取 得 了 这 两 位 “ 侯 选 作 者 ”的 风格 竺 

然后 ， 再 把 这 两 位 “使 迷 作者 ”的 风光 特征 指标 ， 与 未 钙 的 
12 篇 轩 名 “联邦 主义 者 ”的 文章 中 横 应 的 风格 特征 相 纪 较 ， 后 后 
推 类 这 位 置 名 "联邦 主 文 者 ?的 作者 就 是 美国 第 四 任 总 统 志 迪 逊 。 
这 样 ， 便 了 结 了 现代 浩 据 学 上 的 这 个 公案 。 两 位 研究 老 所 用 的 煞 
学 方法 也 得 到 了 学术 界 的 好 评 。 

瑞典 学 者 埃 勤 恕 尔 〈A4AlYar Ellegird) 利用 文章 中 单词 的 出 
现 频率 来 进行 “作者 考证 ?， 考 证 的 对 象 是 一 组 写 于 1769 一 1772 第 
间 前 英文 信件 。 这 些 售 件 有 人 认为 是 一 个 各 囊 昨 兰 西 斯 (Philip 
Francis) HARAS E, ШЛ ВЕРЕ? АК 
没有 采用 和 如 上 记述 的 旬 法 特征 而 是 把 这 些 约 有 157 000 A 
信件 从 河 频 的 鱼 府 与 弗 兰 西 斯 的 著作 (共有 231 зоор) AE 
它 候选 作者 的 著作 相 比 较 ， 一 共 取 祥 100 沁 单词， 从 中 选 出 458 个 
实 词 和 短语 ， 利 用 计算 机 作 记 频 统 计 ， 结 果 恬 现在 弗 兰 枉 斯 著作 
中 的 词 频 分 布 情况 与 这 些 信件 中 的 词 频 分 布 情 况 挤 为 切合 ， 信 而 
排除 了 其 它 候选 作者 的 可 能 ， 判 定 弗 兰 丁 新 是 这 些 俯 件 的 作者 。 

埃 革 加尔 在 统计 工作 咎 把 实 词 分 为 两 类 ， 一 类 是 对 考证 目标 
АН МАЯ, , 称 为 “积极 词汇 ”， 另 一 类 则 是 “ 消 概 词汇 ”。 
ЖТ БЕЗИН “АШЫШ”, “ш д ФЕ ЖОР Ж 
证 文章 的 风格 ， 这 种 方法 被 证 明 是 行 之 有 效 的 。 后 来 被 其 它 字 者 
采用 。 
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BT FRAD 的 情况 比较 复杂 ， 有 时 只 依据 一 个 方面 的 
风格 特征 还 不 足 纺 说 明 问 题 ， 往 往常 要 用 到 多 种 因素 的 指标 ， 从 
不 同 的 铀 面 来 加 以 考察 。 

хр ЗЕВСА ЖК: СМ. Шолохов) ftJ 3: РАД 
СГихий Дон» 5, ТЕТ А K AW В А — ЖЛ, 
НТ А Е ШУ (Федор Крюков) 那里 抄 蓝 来 的 。 到 
了 1974 年 ， 一 上 位 医 名 作者 在 法 网 巴 黎 发 表 了 一 本 书 ， 靳 膏 克 留 村 
太 才 是 : 静 静 的 顿 河 : 的 真正 作者 ， 肖 党 填 江 充其量 不 过 是 个 合作 
者 置 了， 特别 是 该 书 的 第 一 、 二 卷 ， 于 是 如 此 。 于 是 ， 一 股 怀 疑 
АЖЫ тж, © 

在 这 种 情况 下 ， 捷 泽 (G. Kjstsaay 等 学 者 决定 采用 计算 Д 
格 学 的 方法 来 考证 : 议 静 的 顿 济 : 的 直 正 作者 。 仇 科 的 其 体 办 法 是 ， 
ЗО ЕЛГЫ ERRA Е О Р А RR EHA Е 
ЕЕ ИЖИ EE АГ SE Е, МП 
Т ТЕЕ ilo 

АТДА АОИ РЇ? НЕ ВЕЕ 2 00044, BAA N 838 
Жде ЖЕЕ Ж —ЖЇЛУЙ rh ЈЕ О Н ЗООЛ JT а = 
组 样本 ,3 000 个 句子 ， 输 入 计算 机 进行 处 理 ， 处 理 步 骤 如 证。 

С) 首先 统计 句子 平均 长 底 ， 三 组 样品 十 分 相位 。 于 是 再 按 
不 问 的 长 虚 细 分 戌 营 于 组 ,对 三 组 样本 中 对 应 的 句子 组 进行 比较 
发 现 肖 洛 堵 夫 的 小 说 与 * 静 殉 的 顿 河 : 比 较 砍 合 ， 而 克 留 柯 夫 的 小 
Ta E pR RIA T M HA E., 

(2) BOP ARRSH, MET Hh Ho 000 
jJ, ЕО НОЕ, RAE Ноор ШЖ 
TERRE, БОТАНИК, Ж 34515 АВ а Б 
ШУПТУ Е Тү HRA 52 А 

(3) 第 三 步 ， 统 计 各 种 词类 在 句子 中 的 不 同位 置 。 有 人 曾经 


Ф RE + 计算 说 和 社会 科学 3， 辑 诬 出 版 社 ，1388 年 。 
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PAH, ХГЧ PFE LH БЕ, A Jf iF in 
同位 置 可 以 很 好 地 崎 达 文 体 的 风 烙 特点 ， 特 别 是 在 句子 开头 的 两 
个 词 和 名 学 结尾 的 三 个 词 往 往 可 以 想到 区 分 交 体 风格 的 作用 。 捷 
泽 等 人 统计 了 三 种 樟 本 中 各 子 开头 的 词类 和 句子 继 尾 前 词类 ， 发 
现 肖 沙 赴 天 的 小 说 与 * 静 静 的 顿 河 ? 十 分 接近， 而 克 留 笨 夫 的 小 说 
则 与 之 有 相当 距离 。 

(4) 第 四 步 ， 用 计算 坑 作 句子 结构 的 分 析 ， 统 计 三 种 祥 本 中 
名 于 的 最 常用 格式 ， 绪 果 发 现 ， 肖 洛 替 夫 的 小 说 和 : 静 静 的 想 河 > 
的 最 常见 句 式 是 用 “介词 + 体 词 "开头 的 句子 ， 而 克 留 柯 居 小 说 的 
最 常见 句 式 ， 则 是 用 “主语 + 动词 ”开头 的 名 学 。 

(65) 第 五 步 ， 用 计算 机 统计 三 种 古本 中 项 率 最 高 的 15 种 开始 
名 子 的 结构 ， 发 现 悄 洛 惟 去 小 说 中 有 14 种 结构 与 < 表 静 前 屯 河 ? 相 
ТЕ, ПТР Ж А Н ЖЯ БАИН ИЛИН. 

(6) ЖА, ЮРИЯ ШЕ АОБ Ж 
Му BR). RIH ТАЕ ЖАИ БАИ ЫН ИПИ A 
Же, УАН ББ ЫЕ AO BP ЖИЛ] 5: КИ] А 
Els 

ЖЕ ЕЖУ PEERAA, ШЕ А БДЖА ЛЖ З 
ИЕН, PAHARE WW aR ТЕА, ЖЧ. НР 
МЕСЯ ШЕК, {ТЖЕ ТЕЕ SHE, ШЫЛ 
类 规模 的 研究 ,到 了 1977 年 ,他 们 已 经 分 析 了 了 到 目 三 种 不 同 禅 本 的 
140 000 个 单词 ,其 中 包括 取 目 * 静 静 的 顿 河 ?第 四 着 的 新 材料 , 进 一 
步 充 实 了 输入 计算 机 中 的 语 料 , 这 时 , 捷 泽 等 人 才 下 了 一 个 比较 稳 
АБ: “ 静 表 的 顿 河 ?确实 是 肖 洛 霍 去 的 手笔 ,不 壕 ,他 在 写作 
时 或 许 参 考 过 克 留 柯 去 的 手稿 。 后 来 ,苏联 文学 研究 着 也 合用 计算 
训导 这 个 问题 进行 过 考证 ， 得 出 前 结论 与 捷 泽 等 人 的 结论 户 同 全。 


证 КОН. [ТЕЕ 1990225 мтап нян, kA МХ 
ИТТИ FRIE ЖР ЈАН AEREE, 
ХКО, «ШЫ ИИ УНЕ йкы кыны 全 的 证 请 。 这 件 事 实说 明 ， 
ПЯ НЕ Е BED A Е А О. 
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ЖЫ ДИМК ЕЕ A E SB Ab aE ЕЕН БР НН ЖОРУ BIN IE 
ЖОП? ЕВ ЖТТ ЕЕ МАТ» 12 部 作品 中 ， 池 小 说 溃 
W: EREKET, BEIR. PEATE, KRAI A 
EWH, FHEAR: РМЗ ЛЕУ E с, 
EID, EARRA, CIMB. BMA O», pAr 
H.T 

ANF TERENE HE Mh P AARSE АОН MAR A TE ТЕЗ ИК m 下 
RPR. MA, REM А, A AA a uJ 
MATIA E. ЕТИШЕ, MATARI RIN, 
“HOA JL. ү. E, 2. К, ш, B. A Wb. 7р: 1 
TAPRE АЧА, ПЕКИ ШШ ЛАШ ЖЕН, 1 
ПРАЗНА E. AE, j “ш, ш ош, И, ш. 
R” ЕЛАН АН АЧС, MEA RARA E, HEMNA 
WT TH- E, m “AD. Ж, DD 9, ERRO EE ДЕЦ 
ARIZ, MERR EP IRAR, н, A 
“КЁЛ”, ERAR ШК Н Р is TE Sy b rE, 
И ЖЕЗНАЙ, RAAT, EIT RHR ВОН Е 
ЛУТ 22 Гирд н НЬ 0 ARAA e Л: 
本 中 就 具有 相对 低频 ， РИА, ХЕЛИ АА 
相对 低头 。 正 是 这 样 一 种 互补 分 布 ， 使 得 小 说 和 剧本 在 汉字 这 个 
平面 上 区 分 并 来 。 这 样 的 研究 结 明 对 于 汉 话 计算 风格 学 显然 是 有 
ЖД Ж, 


第 6 节 ， 吉 代 语 音 研 究 中 的 统计 方法 


语言 符 避 的 随机 竹 当 然 也 应 该 容 在 于 着 代 语 并 之 中 ， 因 此 ， 
我 们 就 可 以 用 统计 方法 来 研究 古代 语言。 

@ 漠 政 策 ,汉字 与 襄 体 的 语 宫 风 格 一 一 汉语 半 算 风格 学 研究 尝试 }， 
США АНЯ), RUKY ННЯ РЬ, 198846. 
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тоо, “ШИТ ZA AEL (M. Swadesh) Ц 
了 “语言 年 代 学 *(glorrochronology )。 册 他 认为 ， 每 一 种 合计 者 
有 一 些 医 本 词汇 ， 如 人 人 称 代 词 ， 鼎 体 各 部 分 的 和 名称 等 等 ， 这 些 基 
本 词汇 的 变化 速度 ,在 很 长 的 时 间 夫 大体 上 是 一 样 的 。 他 选择 200 
个 词 作 为 过 用 于 各 种 语言 和 的 基本 词汇 ， 经 过 统计 计算 出 ， 它 们 在 
1000 年 中 保存 下 米 的 词汇 :大约 为 865。 如 果 于 种 古代 二 言及 其 发 
展 而 成 的 现代 语言 的 基本 词汇 有 6869 号 是 相 间 开 相 进 的 ， 那 么 ， 可 
根据 公式 


来 计算 这 种 古代 语言 存在 的 绝对 年 代 ， 其 中 , 六 等 于 0.86，[ 是 在 
该 现代 滞 言 中 保留 下 米 的 基本 词汇 的 百分比 ,! 是 该 占 代 语言 他 在 
的 绝对 年 代 。 

_ nt _In0,.00__,, — 

= зы, In0 вв ЗСО 
也 就 是 说 ， 这 种 语言 从 古代 算 起 已 经 存 企 3000 年 了 。 

部 果 比较 的 不 是 古代 庶 言 及 其 发 展 而 成 的 现代 语言 ， 而 是 两 

称 由 共同 原始 语 分 化 而 求 的 现代 语言 ， 要 是 这 两 种 现代 语言 的 基 
本 词汇 中 共同 的 鹿 的 比例 为 工 ， 那 么 ， 这 两 种 现代 语言 从 原始 语 


ЕНЕН RAA 
_ 131, 
T gint, 

来 计算 。 


例如 ， 比 较 英语 和 和 德语 的 基本 词汇 得 出 ， 工 = 0.83， 由 此 可 


51, 
_ lnL 1n0.82 


= =. k Tm om E AE 
t Int, Toino gg 1.3¢ 干 年 》 


D M. Swadesh, Salish ihternal relationship, «іні. I. American 
linguistics», 161157—167, 1950, 
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这 意味 背 ， 英 语 各 德语 是 在 1300 年 前 即 公 元 6 世纪 时 分 化 的 。 

当 热 ， 语 言 的 演变 的 因素 是 比较 复杂 的 ， 民 族 迁 徙 ， 民 恋 接 
航 以 及 其 它 社会 历史 因素 ,经 常 加 快 或 减 慢 滞 言词 汇 的 变化 速度 ， 
它们 对 于 确定 语言 发 展 的 绝对 年 代 有 着 很 大 的 影响 ， 史 到 德 士 的 
公式 设 有 考 碟 到 这 上 坚 揽 杂 因 素 ， 当 然 也 就 会 有 一 定 前 局 眼福 。 

日 本 语 衣 学 家 安 本 美 典 和 计算 宙 科 学 家 本 多 正 久 合作 ， 用 计 
等 机 把 日 语 亡 让 与 其 它 有 关 语 言 的 词汇 作 统 计 比 较 ， 来 研 党 日 详 
的 起 源 词 题 ,他们 还 使 用 了 美国 语言 学 家 与 斯 瓦 德 (R. L. Oswald) 
提出 的 、 检 验 远 点 语言 亲属 关系 的 压 移 检验 法 (shift test), 对 日 
语 与 其 它 语言 偶然 的 一 致 进行 统计 分 析 ， 并 用 英国 语言 统计 学 家 
БР} CG. Herdan) У): (factor analysis), UIAA 
Ит MATHEA A Pet y НЕЕ i". Ч 

“НИ АЕН ал” ТА, ПЗВ ИЕА: БИП ИКТЕ M. P ИЯД 
ИНЖИЛ aR Dl. НЕЛЕР ЫЕ A ИГИ КЖ ЭК ЛЕН 
EARM, ЖЕШ ТРЕ ah. W. Т ТЕ, ЖОПЫ ЖИН. 
FEE ЖИС ЕЛИН, ЗОРАНА НИИ A R ИНИ ҮЙ 
的 大 江 一 样 。 

当然 ， 这 种 关于 日 请 起 源 的 理论 还 要 经 过 进 一 各 的 检验 ， 但 
是 ， 这 项 研究 工作 本 身 说 了 明了， 使 用 错 计 方法 来 研究 弄 代 语言 的 
演变 ， 不 但 是 必要 的 ,而且 也 是 可 能 的 。 

在 汉语 语 育 史 的 兢 究 中 ， 有 分析 前 部 的 分 合 情 况 。 但 由 于 缺 
乏 客 观 标 准 ， 调 对 同样 的 裙 洲 材料 ， 往 往 见 伍 见 独 。 前 部 同 用 辐 
到 什么 程度 算是 人 台 药 ? 狸 用 独到 什么 程度 算是 分 前 ? 这 是 长 期 以 
FERE ЕЗИ” ЗЕ ТИ ИЙЕ КЁЗ ТЕШ. 

过 去 许多 音 章 学 家 用 核 举 例证 的 方法 来 研究 草 部 的 分 会 ， 常 
常 击 现 * 公 说 公有 理 ， 获 说 敬 有 理 ” 的 现象 ， 这 是 出 于 语言 符号 本 
身 的 随 相 竹 引 起 的 。 因 为 ， 为 了 摆脱 这 种 令 人 棘手 的 困境 ， 有 必 


Ф FERR, ЖЕЛ, ИКО, RERE, тотар. 
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ЖЕ ИЖ ЕРЕЕН 

З Е РЭС “ЫШ” КИЙЕ НАН УШ» ШИЖ 
«ЖИЮ Жо А0 З, АШЫШ, SABAE 
З, — Ë RFRA, РЕА АНИ АУА РЕН”, TEA 
然 忽略 ， 误 用 近似 币 非 疝 类 的 字 作 切 ?，“ 我 们 车 不 把 有 这 种 毛病 
的 字 视 为 例外 ， 严 带 的 依据 它 考 订 ， 恋 度 虽 是 十 分 谨 严 ， 而 实际 
上 反 失 之 果 板 ”。 他 说 ,，“ 依 我 的 设 见 ， 认 为 用 统计 方法 最 授 当 ， 
把 广 欧 3 一 贡 所 用 的 反切 上 下 字 在 全 书 中 出 现 的 次 数 , 一 一 数 过 ， 
看 看 哪些 学 出 现 的 次 数 多 ,哪些 字 出 现 的 次 数 少 ,哪儿 个 字 简 直 可 
以 认为 是 例外 ， 然 后 再 参考 前 人 已 用 过 的 方法 ， 蔷 酷 分 析 ， 很 可 
以 把 * 广 前 ?中 的 声 组 前 类 ， 另 组 成 一 个 系统 。? 但 是， 和 白话 浏 实际 
上 内 是 使 用 了 算术 统 订 的 方法 ， 并 不 足以 消 际 古人 人 微 反切 时 的 随 
IRE, 

陆 志 韦 是 最 早 使 用 概率 方法 来 研究 音 确 学 的 中 国学 者 。 他 在 
1939 年 发 表 的 :证 广 韵 五 十 一 声 类 >? 中 ,提出 在 统计 比较 研究 时 ， 
必须 有 一 个 客观 标准 。 他 以 一 个 随机 相 汗 报 率 在 样本 空间 中 理论 
小 扎 实现 值 作为 比较 的 探 准 ， 他 把 这 个 标准 称 之 为 * 刀 届 数 "， 用 
用 遂 数 来 跟 宰 际 相逢 的 情况 胡 对 照 。 凡 机 逢 之 煞 远 超 平 机 率 所 谋 
得 者 ， 因 两 声 类 之 协会 也 。 凡 远 不 及 机 率 所 应 得 者 ， 因 两 声 类 之 
溃 突 也 , ”他 还 进行 了 误 蔚 鸽 计 ， 确 定 以 土 2,5 借 作为 “ 遂 超 平 * 的 
标准 。 这 称 峰 率 锁 计 方 法 比 算术 统计 方法 更 为 科学 。 陆 志 书 在 < 广 
ЮНИР ЛТД ЛЕ AYO, JETRE BERO ИГЕ ЫК» е 
Я НИЕ EKE P, АША ТОХА ИНГЕ 
议 语音 竟 学 的 研究 中 ， 取 得 了 很 大 成 就 。 

中 、 陆 ， 二 氏 的 统计 方法 只 是 用 于 “反切 ”的 研究 上 ， 如 果 
用 子 竟 语 的 研究 上 ， 则 还 显得 不 是 。 我 国学 者 近年 来 又 所 出 了 进 


D HRI GHEARR ЭР, (4 女 师 大 国学 季刊),1931 年 ， 
第 1 期 。 | 
Qh ШОН, QE Wm ARR САА МЭ), 193991. 250, 
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-PEF ЖЫР ЕНЕ ЛК ЛИЕШ» © 

ХП ЭЛЕ ИТЕК. ЭЧКЕ УЭЕ ВАВ „ 

ЖИЫ Яр КИШ ЧЕК РАО ЕАН fE 
ЖК, КОЗУ. ЫК, 即 说 它 出 现 1 字 次 ， 
TREAZ, : 

ЙИШ, —Büdrh, ТЕКСЕ БА, В, С УШТ: 

Gibig.a;b,c G ‚ре 
Ors 22, 45, ПАЙ, Bi, Da ВВЕР, сое 
Feo 

a Fibi јајна), B ba ТЕНК, а, 
Flaa, а, 10, be су, ciRee, а, Mb Z BBS IPK. ДШ 
TENK, ДЕР aadi LENK Са Жа), арна КСА, ibis 
bi#la., а, 16, oa, Rhb.), со ВИК (Ele Жа), Бе 
(ЕДБ, 和 e1)。 

R SW Mga О К, ERMER. ШР 
HFK, AE e ЖТК, Бант, БЫХИН у 
法 ， 可 知 4 背 字 出 现 7 字 次 (el 为 ! 字 次 ，ga，as，a 各 为 ? 字 次 )， 
了 更 字 出 现 5 字 次 中 ,为 1 字 次 ， Di, ВАК), сз? 
K Cc 为 2 字 深 )， 总 并 14 字 次 。 

统计 LL 略 内 全 部 宇 次 为 ， 

A 

Hh, Zs Zs ZAHARTE, BHF, CHZWEK, Zok 
ж АГЕН А ИН АЬШЕ A 

ГОА Sr iB iD K U, 

Yr=Y, Ya +Y, t Үш + Yi t Yp + Ун + Yog 

Җор, Y. RAWIS И ИНК. Yas Y. Ушун 

BU S АКУ, оН E MAIR ЕАН ШИК. 


Q Жи, СБД КА, ТЕХНО Е, 13852, 
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кыйл ЖЛЕ АТК ALSO H tk ABP ИНК 

А ОЛ ЈК ЯЕ НЫ И, ЖЕГИ ИДЕ E 的 
ЛЖ ШЕЙ ЕЛИ ИПЛЕ ЖИЛ» АЖИ, 用 离合 指数 米 
表示 。 | 
PNRA И 1и BORE M ES ЖИР КИН 26 E Hi Wi ЖЕ — 
I. 

MEGEP URA, BR HADA , Шар И SLO: HUA ЖИВ 
ËJ ИШ ЖИМ, CF r 
| 22.7, 
(Z.+Z,) (Z, + Z, 0) 
їй ab НЭ ИДЕ ШЕЙ Эл 

К(аЬу = 


Plab) = 


Y. 
Yaa t Yu т Yu 
离合 指数 1 机 用 下 或 计算， 
Riab) 


Кар) = Plab aby x 100 


如 果 丰 、B 完 全 合成 一 个 前 , 则 [一 >100。 当 离合 指数 13> 100 
上 时， 两 前 已 合并 ; 401100], HARA, СВТ, HA 
ВЛ, MERAT. 

МЕА рУ ААА. — hq, 84 
T 渡 90 时 ， 可 以 认为 责 萌 已 全 并， 当 I<50 时 ， 中 可 认为 西 竟 还 未 
AÉ, Msisi <u, BAUDA ATARE AR, 

用 “! 和 分布 假设 答 验 ”的 方法 来 判断 。 

“t 分 布 假设 检验 ”的 具体 内 容 存 下 面 的 例子 中 给 出 。 

TE, HARO BERD ИГИН Н Т.З 

& АДЕ Ki Л 8000 ПЕПЕ LDO ЖО Eh HL. РГА ж 
1.9.1. 

RLG. PAR, q. UP. ВЕТКЕ A. 45— 
S ON т M DJ S SF КИ ЧОК. Ze =1362, Zm =361, 
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——— 
136° | J8 ГЕ П. 
Г 31 i 45 192 тїт 
iH 562 204 339 paT 
iT іг | 7 18 ü 
" _. ‚үт, 


Z 有 =9862，Z 江 = 37,，“ 余 ?前 是 入 声 ， 还 出 现 2 个 宇 次 ， 这 很 可 能 
是 个 错误 ， 但 统计 在 内 并 不 影响 结果 。 

RETIA FARIEN: 了 下 = 45 (ER AM 
ĀE REER KO, Үш =264, Yai =?, Yum = 339, Ymr = 
18, Yirw = 6, Yum =2, Уж =0, Үп =0, 

ЖЕСЕ УЙИ ЗЫ 


Ye = 2 Za =УҮ б + Үр + Y wu + Ym 


+ Yr + Ули + Yma + Yi g = 681 
Z) = Уж x 2+ Үшү + Ya ir + Үр 
=4$х2+264+Т+(0= 361 
2 И, ЯҢ БУ ТУ ДЭК. 
WEL ER EF, ГОШЕН ИЕТ, ЕН, ЇНЇ РЕГИ 
ЕЕЕ ЕА 
ВРЕ ARA. З ВЗН Sra s 
公式 求 出 ， 
先 看 唐 阳 的 关系 ， 其 相 押 概率 为 


_ 2Z Z m _ 2х3%61х 962 
Р == НА т -5 
i (Яң + ZR) Zat 7—1) 1323x1322 

=,587 


但 实际 想 提 比例 为 ， 


Үн 2G1 


Ram S a e . Му. = ЗА зз з 
н Y m) + Y q 8 + Y pfin 45 +0617 539 
20.4072 
故 离合 指数 应 为 
REH 0.4072 
І =. х100 = nx 10022102 .69 
ра х 100 =ош 


按 同 样 的 方法 ， 可 求 出 : 
Гні 71.38, Пыл: 69.44 
ЦЯЖ А ВВ" KELD, ШАН, АЧ 
Ги 10522100, т ВАДЕ Н aE Ta Dar 
Я АИА, ООО НТ, HERE ЭХ 
时 ， 需 要 借助 于 “# 分 布 假设 检验 ?来 判断 。 
检验 明江 是 否 相 通 的 步骤 如 下 ， 
C1》 我 们 澳 要 是 单 尾 检验， 因此 , 零 殷 设 和 择 一 假设 分 别 为 ; 
Hos B=, 和 HL n<. 
mD EBI E SP В-ВО Яо 


下 面 来 确定 零 假设 正确 ， 还 是 择 一 假设 正确 。 

(з) 由 统计 数字 算出 标准 比值 f= Pm =0.0725 

O 把 宕 向 全部 统计 材料 任意 分 成 大致 均 多 的 16 组 CZ 大 就 少 
分 ，Z 小 就 少 分 )y。 分 组 统计 恕 表 1.6.2。 

GQ) 由 每 组 数据 算出 x; 的 人 入，xi 的 计算 公式 划 下 ， 
Үні; 


"S Pam i Yur t СТТ 
ЖЕ. 
х. = 0, Хъ= 0.0417, х= 0.1818, X= 0.0417, 
Хь= 0,125, xa =Ü, x, = 0.1053, х= 0, 
хь=0.0345 ху,= 0, х=, каз = 0, 


Xia =0, 08, xi = 0,08, Xis = 0,0823, К! 
(5) RARR 


» 106 • 


¥1.6.2 ЙЕ 


i — a а-л 


ко 2 MN JAE БЕШ ОПП WA ТШ Ж 
1 96 в 25 12 о 0 Ü Ü 
2 8% 0 16 33 0 0 1 Ù 
3 | 86 z 17 17 1 2 0 
4 | 88 3 17 23 0 0 J 0 
5 81 4 11 zl Ü 2 3 j 
5 | Bú 8 19 12 © 1 р; ü 
7 80 2 19% 17 Ü 0 0 $ 
8 8° 0 21 19 0 1 0 ü 
9 82 © 12 28 0 3 1 0 
10 5й 1 17 27 Ü 0 0 а 
11 90 1 16 28 Ü 0 0 0 
12 90 4 13 26 Ü Ü 0 2 
13 i 30 3 1? 23 ü Q z 0 
11 86 2 16 22 1 Ы 2 0 
15 š4 2 15 22 0 1 2 ü 
1% 86 7 13 13 4 0 0 б 

总 TH | 1862 45 2ё4 aag 6 了 8 2 

X-1 Z= 0.0483 
геі 
(6) 求 出 样本 方差 8 
Ssl ECs ~ Ху? = 0,0559 
Е! 
D 计算 统计 量 
t= 发 一 = -1.7337 
5? 
п 
(8) ЖЮ koa 0,05, ARRALAR Ht 
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ЕНА ЕАЭБ, MAAAR RRASA, Fa a (n- 1) 
= 1,758 

(9) ЖАБАТЫН, 

Жз. 08-1), ШЇ БЕЛШНЕН, 

FOt saln- 1)， 则 取 零 假设 HH,， 

现存 ft= — A.7397721 son 一 1)= - 1,753, ВГ ЕН, 
ARERR, 我们 可 人 以 有 95% 的 把 担 说 江阴 已 经 合 鸭 一 间 。 故 我们 
在 表 1.6.1 中 在 江陵 的 窜 合 指数 569 后 加 T， 表 示 江 阳 已 经 相通 ， 合 
为 一 更 。 

etita G- DATA H, HEt D 大 得 六 不 很 
#, BEATAE: 

@ FRIA, Ж, WADER W, 

@ НКИ GJ, WELA СЕЛ, WEA 
述 分 ， 或 许 某 些 宇 已 不 分 ， 某 些 字 还 分 ， 也 就 是 说 ， 汇 阳 合 葛 偿 
处 于 一 个 动态 前 变化 当中 。 

使 用 局 粮 和 竟 “t 分 布 概 设 检验 ”方法 ， 可 以 判断 唐 江 相通 ,已 
经 滞 为 … 宰 ， 让 在 表 1.10.1 的 唐 江 离合 指数 71 的 后 面 加 T。 

HEB, ЗНАЕ. ЯН, ЛНЫН, ji 
唐 阳 汪 三 前 已 全 为 一 前 的 结论 。 

在 汉语 语音 史 研 究 中 ， 需 变 外 型 大 量 的 语言 材料 ， 通 过 这 些 
灶 料 来 观察 前 微 的 分 合 及 其 内 静 差 异 ， 从 而 发 现 十 伐 汉 请 中 实际 
HAOR ИА КАЕРИ, РО АЈ 
ЫН, Е ИЧ ЖЕ И ИЧ АОК Т» ДЕ ЛОН РЕ 
БЕЗЕ НАТА УГ, СИ НЕЕ, УРЕ 
З НО ЖЕДЕ И ШЫ L by АНКЕ НЕЕ, JER 
ЕЕ ЛЕ НДЕ ИЕА Е. ЖИНИ, ARE 
学 方法 引入 到 音韵 学 这 门 传统 的 语言 学 科 中 ， 必 定 会 帮助 音韵 学 
ЭТК ЕСО АДЕ, ЗХАНЕ НЕЯ 
的 活力 。 
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第 1 节 ”语言 的 合用 与 马尔 可 夫 链 


征 第 -- 章 中 我 们 尊 经 指出 , 语 衣 成 分 在 交际 活动 中 的 出 更 是 
一 个 随机 事件 ， 查 我 们 在 研究 这 个 跑 机 事件 蛙 ， 并 没有 考虑 某 一 - 
滑 寄 成 分 前 后 的 成 分 对 它 的 影响 。 然 而 在 语音 的 使 用 时 所 说 出 或 
听 到 的 任何 一 名 话 中 ,这 些 语言 成 分 之 间 是 前 后 多 过 彼此 影响 的 。 
如 果 只 把 话语 中 的 一 个 单独 将 语言 感 分 当 作 一 个 随机 事件 张 研 
完 ， 就 礁 以 反映 出 语 才 合用 前 真实 面貌 。 

如 果 我 们 把 确定 语言 中 字母 的 出 现 区 试验 午 成 是 一 个 随 宙 试 
е, уе Е ВЕЗА АН, MA, ГОТ 
ИАЕА ОНАН, КТ, Ар. 个 随机 试验 
ШАЗИРЕ Е, BAF О: ТАНА З Т. И, Е 
ЖОР, Т АУ, ли НЕ О Са k. 
EEZ, ЯРО НВД ЗЕ пры, зро, 而 二 要 是 出 
MEAT (在 dre 这 个 词 中 ) йн, срез WERZH GB ND 
Ар, MA, ЯС ЛЯ MIA HARR 


109 < 


30.701, ІНА ТЁ в 300.157, ЗЕ ЗД 0.036, 
ШИЛ ЕРИ 030,031, 39%И, 

ЮЖ, ЭГЕ ЧЛ ИКИ ШЕН МИЛЕ ТЩН, Ж 
须 在 连续 的 语 流 中 ， 来 考察 前 后 钓 连 彼 此 相关 的 各 个 语言 成 分 之 
问 的 概率 关系 。 

REAT BIKE RA. A. Марков) #619121 Ф491 
事 长 诗 * 欧 根 ， 奥 翰 金 3 中 的 连续 字母 加 以 分 类 ， 他 把 元 音 记 为 V， 
把 辅 音 记 为 C， 然 后 ， 以 3 个 连续 字母 为 统计 单元 ， 统 计 了 这 样 的 
三 字母 序列 在 * 欧 根 。 奥 涅 金 ? 中 的 几 鞠 次 数 ， 得 到 了 如 下 的 元 畏 
音 序列 表 ， 

Муу) = 115 


}—МУУ) =1011 

NV YO) = 989 i 
) 
ў 


-—N (У) = 8638 ` 
МУСУ) = 4912 


МЩУСС) = 23229 
МСУУу 989 1 
N(CVC) = 6545) 
N(CCV > = 3322 
N(COC) = 505 


2.11 KR. Л гр uh ДЕНЕ | 
М2 тор, "ГЫЗ sus ЕЩ НДЕ Ж. 
例如 ， 元 音 出 现 概 率 为 ， 


МУ) _ 3638 _ 
Р = таг = goog 0-432 


ВЕНА ШЩ ЖЕТИГЕ Ж. 2) 
РІС) = NOV _ 7534 


МОРС) 7534 ) 
N = 20000 
—N(CV) =7534 
xo =11362 J 

]—Necc) = 3827 


КОС) = 11362 ~ 863 
TRETEN HARREN 
МУЎ) _ 1044 
РУ Ту) = ЧУУ? 1044. 1: 
(УТУ) МСУ) ™ 4638 0.128 
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йо И. щи KMI У, НБ ПИА FM ЗА 
ДО АЛЕК ЖЕ, 

„үн РИ 14 ЖИБЕ ЛЕД Е о 

随机 过 程 有 两 层 含义 。 

第 一 ， 它 是 一 个 时 间 的 函数 ， 随 着 时 间 的 改变 而 改变 ， 

第 三 ， 答 个 时 刻 上 的 通 数 信号 不 确定 的 ， 十 随机 的 ， 也 就 是 
Bis RÍA LAS RARE E USU 

Eh ЖЕКПЕ, -ATE ERO 的 出 现 
BEZENE By eu, ШЫЙК, WA bu ELAT 
ATI ОЮЕЖО WMA- EB ВЕ, ЖИДЫ. ИШЕ, ТТИ 
UEA RERA В У 

Хх ША ЖНГ ЫН {а ОГ Р 

信息 论 是 数学 的 一 个 分 支 ， 它 是 研究 信息 传输 和 信息 处 理 系 
绕 中 一 般 规 律 的 科学 。1948 人 年 美国 数学 家 申 农 (С. E. Shannon) 
太 人 人们 长 期 的 通讯 实践 中 ， 为 信息论 作 了 北 基 性 的 工作 。 三 十 此 
年 来 ， 这 门 学 科 发 展 极 为 壕 速 。 

Pp kipupi apiki ih кинә 
О {А Т АН BL Pit ЕН y BERA sr, ЖЖ АЛ] 
БЕКСЕ В НИЕ ы ЖЫРШЫ < SUL ШЕЛ = 
义 谐 波 分 析 等 数学 方法 应 用 于 信息 系统 的 研究 中 ， 才 看 出 通讯 系 
统 内 的 傣 吕 实质 上 是 一 种 长 有 锋 率 性 的 随 视 过 程 ， 有 从 而 得 出 了 一 
些 概括 性 很 黄 的 结论 ， 建 立 了 全 息 论 这 个 学 笠 。 

信息 论 的 研究 对 象 是 广 尽 的 信息 传输 和 信息 处 理 系 统 ， 从 最 
WAN РНЫ. а, eye. Wik. E — W #|4 phi БИШ 
系统 ， 痢 可 以 用 统一 的 信息 论 观点 加 以 描述 。 都 可 以 概括 成 这 样 
或 那样 的 随机 过 程 加 以 研究 。 

从 信息 论 的 角 紫 看 来 ， 语 言 使 用 这 样 薄 随机 过 程 ， 也 就 是 从 
语言 的 发 送 者 通过 通讯 媒介 传输 到 濡 育 的 接收 者 的 过 程 ， 如 图 
2.1.1 所 未 4 
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2.1.1 ЖИК 


МА CHED ЖЕНИ ПИР рени 
AE НЕКЕ, Ира ТИШ ЭР BJ Г ААИ КОН ЖЕ 33) — 
个 一 个 鲍 语 言 符 导 。 显 而 易 抑 ， 这 个 过 程 是 于 间 的 图 数 ， 而 每 一 
ШЕ AI CHI тү АЕН УЫ) R EB М» REA- T t] =s 
义工 的 随机 过 程 。 

在 这 个 随机 过 如 中 ， 记 出 现 的 语言 成 分 是 随机 试验 的 结局 ， 
语言 就 是 -系列 具有 不 同 随机 试验 结局 的 链 。 

我 们 以 强 语 为 例 来 进行 这 样 的 随机 试验 : C SDS E, MaM 
EF， 和 都 算 为 一 个 字母 , 词 与 词 之 问 的 襟 窑 算 为 … 个 字母 ,那么 ， 
做 语 字 母 表 就 是 由 只 个 字母 组 成 的 。 

如 果 在 跑 机 试验 中 ， 各 个 请 言 成 分 的 出 现 彼此 独立 ， 不 析 开 
ЖЩ, ЖИА, НЕЯ УРЕ, 

ЭЖЕ ДЫН, УЗЕЛО НИИ ИЕЛ, ЖА, К 
Л A О rok. ВАЕ ЕЩ OD y ВЕФ 如下， 

бухе ррохьдьш яыхвшхӣжтифвнарфенвштфрихгпчькизряс 

ЭЖЕШ ПП, УЕЛА ARRETE, Д 
ЗОВЕ т, АНЕ К, ШЖ ЕШ Ш ЖЕЕ эу ВЕ, 

HIRIE ТЕРНИ 201.20 

* 0888632 ИРТ Ж, ЕЛУ 
#Фи 

T чыяь серв однг збя енвтша ьуемлолёк 

ТЕ ВЕ ТЕНЕ, ШИШИ ИЛА А ИЕ ЕШ НИЕ ЕЛИ ИЕ 
有 影响 是 无 记忆 的 ， 因 而 它 蚌 由 一 个 无 记忆 人 情 源 发 着 的 。 

如果 在 随机 试验 中 ， 各 个 语言 成 分 的 出 现 概 率 不 相互 独立 ， 
等 一 个 吨 机 试验 的 个 别 结 局 依赖 于 它 曾 面 的 随机 试验 的 结局 ， 那 
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36.1. P ID EZ ЛЕНЕ К 


— mI ! 
to | ш ж | ойжо юра ж 
sad | олт | К | 0.028 q 0.012 
о г 0.090 | M і 0.026 | Ë | 0.010 
e, ë боз O z 0.025 | x 0.005 
a | 0.065 1 п i 0.025 I ж | 06.00; 
H | 0.062 ' M 0.021 1! ИП 0.00; 
H | ü,053 i Я 0.018 Юю 0.066 
т | боз | a | 0.0168 f u 0.004 
с 0.945 | 6 | 0.014 m | 0.03 
р 0.040 Ü b,» 0014 j| 9 0.003 
в | 00638 j ог | боз | ф | 0.002 
л | 0.035 | | | 


o кй фо И Ж. EERE Rp, HERRA 
分 对 后 面 的 语言 成 分 是 有 影响 的 , 它 是 由 一 个 有 记忆 信 源 发 出 的 。 
这 正 是 马尔 可 夫 研 究 : 欧 杭 " 奥 湿 金 ?的 字母 序列 时 所 面 乔 的 情况 
正如 蔚 尔 可 天 所 指出 的 ， 语 音 就 是 由 这 种 有 记忆 和 估 源 发 出 的 马尔 


02.1.3 АРТЕ Ж АДЛЫ) 
i | 1 | 
zyja * | %# g | & R ` щш ш 
i | ' i 
п 0.207 я 0.03856 j е 0.914 
н 0.085 э 0.032 | 9 0.014 
x ! 0,070 : T 0.0531 1 A | 6.012 
с 1 0,064 1 ш 0.030 х 0.010 
9 6.052 x ф 0.029 ! Y 0,008 
в 0.051 i n 0.021 | ж 0.007 
k | eaog | б 0.00 | m 1 0.003 
мо} сову 0.00 і ю | 0.002 
д | (боз; 1 г 0.06 1 я | 0.001 
a í бов оч oos | | 
Шы ы ы ы Р rs. ..... 


T J: tk, 

如 困 拒 人 只 考虑 前 面 一 个 语言 成 分 对 后 面 一 个 语言 成 分 出 现 
概率 的 县 明 ， 这 样 得 出 的 请 育成 分 的 链 ， 叫 做 一 重 马 尔 可 江 链 。 

我 们 把 空 媚 (信也 四 成 一 个 字母 ， 那 么 ,在 六 出 现时 ,下 一 个 
俄语 字母 出 现 修 率 如 表 2.1.3 所 示 ， 这 人 实际 上 就 是 俄语 首 字母 的 概 
率 分 布 情 说。 

REFRA] Ар e bk, F: 

кая всваиный POCA ных ковкров 

ЖЖЖ ТЖ ЕП ПЕ ЖАСИ ГЕРА2У А ИШ — ИРИ БАЛУ ri Jü 
ЖИЫ, АЛКЫН БАЛЫ. ШТА ДОРУ: iE 

НСл, MA, EUFRACIA TR 
ЕЗУ ЕЕ Ж ХЕ 5 1 ЇН ТЫШ Т, 


й?.1.4 Аз йн НЕ Ж 
# Шо ов тю WË | т HJ в ж 
НА | - 一 一 一 ! ——--—------- 一 —- | -. — .- ' . .一 一 - - -一 -一 
BA) 670 j| Tr | oon [оон 0.001 
B | O 3 н | 0.003 п 0,4001 
з | Db + д 20600 ° x , 001 
p 0.051 00.002 | ш | 0.001 
щ 0.016 л | б.о | | 
6 0.009 м 0.001 | 


Bus A EH тро: Ф.Ш F: 

покак постивленный пот дурноскака наконеппо зно 
стволовил 

WERTE ЕЗТН = s У E AEEA ШЖ ЖНГ 
响 ， 那 么 ， 就 可 得到 履 语 字母 的 三 重 马尔 可 夫 链 由 4， 

pecen вратьсл не сухом и непо H добре 

И, {БЕНИ Ж AIDA. EAFA А 
АРНО Н у ВАН, ИН ЦА ФЬ, SEBA 
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ГЭФ, S. НОН. 

Жын APR K. BARAR EREE] 
EH WEER DARA HEF SU ПУ) БЕЗЕ БОЛ-ГОН ЫШ ЖИЕ X 
шр 

Эз [к ЗЕ Ж ЛЕШЕ АО OR ЖО (О. Milen 指出 ， 
ЖЫЛ K SR AVES b ЛЕ ЖЗ ARM, E 的 极限 就 是 语 
法 上 成 立 的 自然 语言 句子 的 集合 。 这 样 ， 我 们 就 有 更 由 把 自然 语 
言 的 句子 看 成 是 重 数 很 大 的 马尔 可 夹 链 了 。 


随机 过 程 的 一 个 重要 特征 是 前 后 符号 的 相关 性 ， 也 就 是 说 ， 
从 消息 的 历史 ， 可 以 预测 消息 的 将 来 。 随 着 马尔 可 夫 链 重 数 的 增 
大 ， 我 们 就 越 能 根据 前 画 的 诸 言 成 分 正确 地 疾 测 下 一 个 语言 成 分 
的 出 现 情 况 ， 记 就 是 说 ， 随 着 马尔 可 夫 链 重 数 的 增 大 ， 我 们 根据 
前 而 的 字母 预测 下 一 个 学 母 出 现 的 这 个 随机 试 驻 的 不 肖 定 性 越 来 
越 小 。 至 于 不 是 马尔 可 天 链 的 句子 Bo 及 $r， 尖 字母 的 出 现 情况 是 
最 稚 预 测 的 ， 也 就 是 说 ,每 一 个 字 民 出 现 的 不 肯定 性 是 很 大 的 。 

闫 信息 论 中 ， 信 息 早 的 大 小 恰恰 就 是 用 在 接 到 消息 之 前 ， 随 
机 试验 的 不 肖 害 往 大 小 来 度量 的 。 限 机 试验 的 不 肯定 性 的 大 小 ， 
uik “R” Сепігору), 

如 果 我 们 作 某 一 在 # 个 可 能 的 等 概率 结局 的 随机 试验 《例如 
HET. n=6), 那么 ,这 个 随机 试验 结局 的 篇 就 用 Iog ,来 庶 量 。 

这 种 庶 量 篇 的 方法 是 合理 的 。 理 由 好 下， 

第 一 ， 随 机 试验 的 可 能 结局 # 越 大 ,这 个 随机 试验 的 不 肯定 性 
程度 也 就 越 大 ， 因 而 它 的 烂 也 就 越 大 。 

第 --，。 我 们 做 问 时 包 依 两 个 随机 试验 的 复合 试验 ， 一 个 随机 
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试验 有 in 个 可 能 结局 ， 另 一 个 随机 试验 有 n 个 本 能 结局 《例如 ， 
抛 硬币 时 m - 2, MORE TE = 6)， 那 么 ,这 个 复合 试 驻 就 有 "个 
可 能 的 等 概率 结局 ， 也 就 是 说 ， 这 个 复 台 试验 的 策应 该 等 于 log: 
түп, BA. RIIDAT UAR., AEA A t a A БУ 
ЖЕ F 08 КЛУБ A AE DAIA БИ Pes АНС Т, БЇ 
于 logs +log:n, BRR TARAR RE: Dg.m-n = log,m 
+IÍog, 8, 

可 见 ， 复 台 试 验 绪 局 的 箭 ， 不 论 是 把 它 看 成 .个 统一 的 试验 
还 基 看 成 两 个 随 丰 试验 的 总 和 ， 玫 是 相等 的 。 这 个 事实 证 明了 我 
们 用 log.# 来 度量 滴 的 合理 性 。 

如 果 随 机 试验 有 # 个 结局 而且， 它们 是 不 等 概 至 的， 第 i 个 
结局 的 概率 为 Pi:， 那 么 ,这 个 随机 试验 结局 的 炳 等 子 

一 S pilogsP, 

随机 试验 结局 不 等 绝 率 ,减少 了 这 个 随机 试验 的 不 肯定 性 ( 例 
如 ， 如 果 嗓 也 的 重心 有 偏 糙 ， 那 么 ， 扼 出 来 的 就 常常 仿 是 其 中 的 
ж-ж, EIR, AR Eib APEA 


logan= ~ $ P;log, P; 


i=j 


等 号 当 且 仅 当 Pl = Ps = … -Р, = 


个 结局 等 概率 时 才 成 立 。 
如 果 随 机 试验 前 面 的 结局 对 后 面 的 结局 有 影响 ， 那 么 ， 可 得 
ША, 


~ È Pb = 1), Лов. Ры 1)C)) 


时 ， 世 就 是 随机 试验 的 各 


1 
n 


E, bi- DERG- 1 作 结 局 构成 的 组 台 ， 它 后 面 有 第 
j 个 结局 ，PiLb;Cn ~ 1 站 是 这 个 组 台 前 出 现 概 Ж, Prano E 
ТЕТ АТТА Хп — 1 个 结局 构成 的 组 侣 之 后 ,第 ?个 希 局 出 现 的 条 件 概 
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MUS КАЮ BJ, АГУ ЭКИЯ ЕМИЗЕ E 01, 
$ Ф, o PESEE hii ДЇ. 

ТЕЧ Фр, ВЗН ЛОН, АЕ 
ВЛ AAH, =1ogsn 来 计算 ， 其 中 # 是 字母 表 中 的 字母 数 ， 对 于 
ШН, n=32, Wif: 

H, =10в:32 = Skt FE 
ETHAN p. СЕВЕ НИИ ЛА, WAEA 


ФАН Д АН, = ~ D Plog Pik HH, + ИША ЖА, 


H, = — > Pilog,P; = 4.35 比 特 / 字 和 登 


05, Н. ШН, FR, 

TFR Ep: Ф, Ф,ЖЕ& ДСП ДНА Чу 
Ж, MEHE, УНЕ БИЛСЕ ЭЗИ ЕЕЕ 06 
ПАЇ АУ, SA СВОИ ЛН, 22, URE Ф.Ф, 
FER-A Е 09308, Э С В a. ДЇ ЖТӨН, = 
BT ЖШ. 

ПЕТЕ А ЖЯ, 


H, = - У, Р:Повр:() 


这 里 ，Pi 表 示 杠 字母 链 中 一 切 可 能 的 双 字 母 组 人 台 的 出 现 概 
ж, PORRE ИПА A RAE F o ТА 7 E EA K 
MEE., ATRE, Н, =з. са, E KH I 得 多 ， 

МАНМЕ ТА ДЕК ЖКУ, 


H=- ` Р,, у, Дон.Р; (К) 


— 
кефа 


RE, Р, „АГ ВЕ ВО ЕН BJ НІ ЖК P. Ску 
ЖЛЕ ЗАП АШИ REZA. ЗЕК СНО ШОШ ЕБ АГ 


ITF- 


Ж, Н. = зо ЕВЕ, АЩ. ТИН», EH ЧЛ» 

上 用 类 做 的 方法 ， 可 以 计算 包 舍 在 字母 链 前 一 个 字母 中 的 任意 
BAIA. R mi FIH AIRA GA FESR RER, 
TFR: 

Н,=Н 2 HR, =Н уе. Hg Нук Н 

这 说 明 ， 每 在 前 面 造 加 一 个 字母 ， 不 会 使 包含 在 文 旬 的 一 个 
字 姐 中 的 六 有 所 增 加 。 另 一 方面 ， 因 为 包含 于 字母 链 的 一 个 字样 
НЙ, ЕА АЯК ВЛЕ НО, ЭТ, FER 

ін, = Н. 
也 就 是 说 ， 这 个 序列 是 有 下 限 的 。 

ЖУЗЕ 0, ERAP, АК = 15 开 始 ，HH; 在 实际 上 就 
不 册 减 少 而 变 得 稳定 起 来 ， 这 时 有 

H i, ZH =... ZH. 

也 就 是 说 ， 如 果 我 们 券 虑 某 一 字母 的 前 面 20 个 或 100 个 字母 * 它 们 
对 于 这 个 字 担 的 出 现 概 率 不 会 再 发 生 册 昆 的 影响 。 炉 H, 就 是 包含 
在 字 祥 链 的 一 个 字母 中 的 实际 信息 四 ， 叫 做 “极限 粮 ” ,俄语 的 极 
ЮН Sl 在 丛 语 中 ， 当 字母 等 概率 不 相关 时 ， 包 含 于 一 个 字 
挟 中 的 炳 H。=5， 当 字母 不 等 概率 ,而 且 前 面 的 字母 对 后 面 字母 的 
出 现 概率 有 影响 时 ,包含 于 一 个 字母 中 的 极限 炳 莫 . 接 近 于 1 可 玉 ， 
字母 尾 中 的 一 个 字 协 的 极 溉 炉 比 斩 有 字母 都 是 等 溉 率 不 相关 时 的 
WAS iio BE 


H, _ Š eriy 
"r 1 БО?) 


ВИ дА, ЖИН ИКИ FRE ЕНЕ {НГАН ЖЩ, Æ 
HT SW ASE EE, ЛОТКА, ҢЫ [ПИРЕ ИҢ ИНЕ}, 
ТАЕЖЕ Н АТА E, ТУНИ Е ВЕ АҢ ЭЕ и. JE 
Z, ЖОЛТИ ARS AR СЕЛКА AES E ik F 
角度 ， 我 们 可 以 说 ， 由 于 诸 理 的 结构 性 ， 使 得 语言 中 有 抑 佘 成 分 
存在 ， 
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ЙЕЗЕ AA PR Pe КЕТТЕ ARA 1i 
ч Е(тейипдапсс), ДЕЗ, ЖЕШКЕ ЕКШ ЖЫ: 


H 
R=1-— —°*. 
1 H, 


H 


: 1 
Ё =1-2 51-7-5088 
H, 5 


RE, ЕА аркан, KARKA EERE A 
ЯШ 十 构 规 定好 的 ， 这 时 ， 如 染 我 们 通过 理想 的 编码 ， 就 可 以 把 
文章 缩减 80% ( 即 压缩 $ 信 )。 这 个 事实 对 于 通讯 理论 和 技术 都 有 
TEAL 

TARRI METEEN ТЬ. RELA h, 
RULAR Z BLARE AAA I 
ДЕН, АТЭС ЬУ ДЬ 
RETE Т АУН ША ИК ЕШ. W D ES 

TARE RIEA. 

ЕЕ ПЛ ЛЕН ЁН ЖОЙ, 

1 .在 书面 语 中 ， 有 不 少 宇 母 是 出 语言 急 构 规定 好 拘 ， 恨 据 前 
面 出 现 的 字母 ， 往 往 可 以 预测 内 后面 的 字母 是 什么 。 这 就 是 上 文 
所 说 的 情况 。 

2 .在 口语 中 ， 情 况 与 书面 证 类 似 ， 当 我 们 漫不经心 地 用 恬 请 
jk, “Здравствуйте, Александр Алекс:‹вич” 和 仿佛 是 说 成 
“Зрасьсансейч”, AN RREN ANGREBENE E FATAR rl 
PUIS, SGER ARER ERE RE EUR MARR 
ER, 

3. 在 文字 中 ， 并 非 构成 字母 的 一 切 笔画 对 于 着 着 这 个 字母 都 
EDHE. Hi ТЕШЕР, 看 到 总 我们 知道 是 加 ,看 到 W 我 们 外 
HAM, 如 果 在 一 行 印 吊 字 母 中 ， 我 们 造 住 字母 的 下 面 一 半 ， 仍 
ЕТЕ тах В, 
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4. 在 某 个 语音 中 ， 并 非 语 音 的 一 切 特 征 〈 如 音 强 、 音 高 等 
对 十 辩 误 这 个 语音 都 是 必 不 可 少 的 。 例 如 ， 发 一 个 cj] 音 , 不 论 是 
大 人 发 或 小 孩 发 高音 发 或 低音 发 ,我 们 都 可 以 辨识 出 这 是 Ce]。 
十 述 四 种 类 型 的 元 余 度 者 是 必要 的 和 有 益 的 ， 它 保证 语言 症 
不 理想 的 条 件 焉 〈 吉 书面 文章 中 有 遗 测 ， 谈 话 时 有 哺 妇 声 ， 书 写 
的 字母 不 清楚 ， 发 音 不 清晰 等 ) ， 仍 能 发 探 其 交际 功能 。 因 此 ， 
我 们 不 能 认为 “ 完 余 度 ” 就 点 的 是 活 言 中 “ 完 余 ”的 或 不 必要 的 
Ж» КОНЫ, ХИ “ле” EREA ТЕ ДИАНА ЛЬ 
的 。 没 有 完 余 度 的 语言 在 实际 上 蚌 无 法 更 解 的 ， 因 为 日 常 语言 总 
有 很 天 的 灵活 性 ， 要 想 理解 介子 的 意思 就 必须 考虑 到 字母 在 单词 
中 的 位 置 和 单词 在 句子 中 的 .上下文 淆 系 。 我 网 蔓 名 语言 学 家 李 荣 
先生 建议 把 redundance WRN KRR ERAH 
二， 只 要 说 言 有 鱼 审 仁 就 会 有 宛 余 性， 语言 符 导 的 宛 余 性 就 是 语 
言 的 结构 性 在 语言 些 用 过 程 中 的 体 瑞 。 这 拌 姓 来 ， 语 言 符 导 的 宛 
余 性 也 应 该 是 放言 符号 的 一 个 重要 特性 ， 它 与 语言 符 导 的 随机 性 
t6 ИТЕ РГЕН а у 
НЖАТ ИН, BARER З у, АНЕ, 1: 
аал, миална ао, ааа н 
р pap: da 
研究 第 一 、 二 种 类 型 的 完 余 度 ， 有 助 于 解决 浴 信 省 传输 语言 
消息 前 最 佳 编 码 问题 ， 从 而 提高 信道 前 质量 。 何 如 ， 用 点 和 划 来 
给 字母 编码 也， 字母 的 出 现 频率 越 高 ， Махи 
BRER XE, Й pit Н ЛЕ. 
PRE ТИЕН БЛ, MRR CR M Fano) 
编码 法 。 这 种 编码 法 是 用 ¢ 和 1 两 个 代码 来 给 字 苹 编码 的 。 设 有 一 
лав, дзн, хила 分 WL 
1/2, 1/4, т/а 78, 我 们 这 样 来 给 这 四 个 字 侠 编码 ， 把 这 四 个 
字 每 按 概 率 坟 小 排列 起 来 ，1/2，1/4，1/8，1/8， 的 后 ， 把 它们 
分 为 两 部 分 ， 使 这 两 部 分 的 概率 之 和 丰 等 ， 在 第 一 部 分 的 字母 岩 
120» 


АВИ КО, С УУНА ИІ, 接着 ， 再 把 第 二 
А, BRRR Ан 2 TID На, У E E 
УОИ, КА Fk, ЗЕМ ЗУ ЕВА 
Шо RPE TESPA 2.2 13 Uj. 


22.1 mi gunu: 
1 T А 
у А 、 _ КА rn 
a aiik ah рау г ЖЫП КАЙ Im 
F šN i 
_ | мзш. |... . 
1 1з | oca М А 0 
2 у десити | р" 
s | 1/8 ТЕР У 7 ык КИЛЕ 
| БСА ЖОН). 和 
боз) { пежкапило 1 


ШОНА Ж A Ы, ТТЛ НЕ, ОРОК, 
Н; .33 . 
R-I- Statio, 
H, 5 


TE, REXA ARAL, MRE AEEA 
按 学 母 组 来 编码 ， 邵 不 是 按 单字 母 编码 ， 而 是 搂 双 学 母 、 三 字母 
米 编 码 ， 六 用 域 短 的 代码 序列 米 记 录 景 常 出 现 的 字母 组 。 例如 ， 
ХТЖ Й, ИНУ, HTE, [Чух 
时 有 


Наар. 3.01206 


H, 5 


研究 第 三 种 类 型 的 元 余 度 《出 就 是 研 帘 字 坪 中 哪些 笔 泗 对 于 
锋 识 这 个 字 坪 是 必须 的 ， 嘟 些 笔画 是 宛 余 移 ) ， 革 于 如 记 文字 的 
设计 很 有 益处 。 这 上 时， 也 要 利用 第 -一 种 类 型 萨 兄 余 记 ， 沪 最 党 出 
更 的 词 С р учто, котарвый ,болъше уп рён бр (Th 
RE Е —ний, -ото, у пге-, anart) 局 单个 符号 来 
н, 


Е = 圭一 


降低 第 四 种 业 型 的 嘻 余 床 》 也 就 是 进行 " 间 河 压缩 ?， 可 以 消 
路 语音 的 某 些 元 余 特征 ， 使 得 我 们 能 够 更 经 济 地 利用 信道 ， 混 高 
通讯 效率。 例如 ， 用 言语 压缩 的 方法 ， 可 以 使 电话 线路 的 通过 能 
HAWAA o 

由 此 可 见 ， 认 直 地 研究 语言 符号 的 元 余 性 ， 有 着 分 重大 的 
经 济 价值 。 

1951 年 ， 中 农 首 先 采 用 信息 论 的 方法 测 出 了 英语 字母 在 不 等 
МЕЗОН, Rio ЕРКО ОКТ, AMAWA T 
ERRET BSN. ЭҢ, ЗЕ MUH той ЕВ RE 
ЕН ТАТА. 

ХПА АНАА А sah БИЖ, TERIER 
ЖЖ, ЛОН ТЕБЕНЩ ИЖ, ЛАЕК ШВЕД Н 
Hi, 


52.2.2 Зете др Se 

符号 | pm | -logem | 符号 р; -1ов;р; 

АУ 02 3,82 u 0.0225 5,46 
° 0.105 3,235 | m 0.001 | 5.28 
t 0.072 3.70 р 0.0175 5.31 
° 0.0651 3,93 | Y 0.012 6,35 
ü 0.063 3.97 гм 0.012 6.35 
n 6,55 — 4,05 g 0.011 8,19 
i 005 1 4.18 b 0.0102 6.35 
г 0.054 | 4.20 / ! 0,008 6,95 
5 0.052 4.26 k 0.003 8.35 
h 0.047 4.40 | x 0.002 9.9 
d | 0.088 | 4,84 | 0.001 10.0 
| 003 о5о | q о.о. |. 194 
< 0.023, 5.4: : z | 0.001 10.0 
f 0,0085 | ОБ. | 

а А ПНА _ 


її, 322.228 3 T SET SE АЕА ВЦИК ОКА Н 
雍 来 让 算 英 详 的 Hi。 
ШИЕ ШИ 


H = — У) P,log,P, =4.03 比 特 / 字 母 


表 2.2,3 中 列 册 了 德 活 字 妹 的 出 现 概率 及 其 对 数 , 可 旧 此 来 让 
算 德语 的 11 。 


PL ЛИН L A ERE 
: 

符 号 u p. озар | р mm logo, 

HALAJ 01425 s Í о | 0071] ° 5,57 
e С 0,1410 zgo Í m 0.0177 5.84 
n | 60885 | 3.53 ; b 0.0138 6.18 
5 | 0.0846 3.95 w l 0.013 6.45 
i j 600 | 5,99 z | 0.0092 8.76 
r 0.0592 4.00 v 0.0079 © д.98 
а 1 06.0591 | ooy f 0.0078 1.00 
а | 0.6546 4,19 k 0.0001 | 7,12 
t 0.0535 422 |} ор oog | туф 
u 0.0422 45 Í Í 0.0023 8,48 
h 0.0361 4,73 x 0.0008 | 10.1 
I 0.0345 4.85 q 0.0005 11.0 
с 0.0255 5.28 y 0.0000 214 
g 0.0236 5.41 


_————— ИНЕ 
{б=ое, й=ас, ü= ue, B =ss) 


НКЕ Н, 
Н, = 一 D Pilog P, = 4.037615 F 
更 将 法 语 、 意大利 语 ， ЕИ ` ун Из» 德语 、 ще р. 


* 123. 


PUMA E ЕЯ ЗУ ЕРУН Я НЕА, 


ENZA ЖЕЕ КИИН, 
р 7 
Wi 种 :; у Š Ж H, i 
法 iit зга) 3.98 ETER 
EA PO rA RD ， 4.00 拉丁 字母 
西班牙 说 327 个 (也 揪 空 向 ) | 1.01 拉丁 字母 
E їр G AAD. 1.03 pi) ER 
德 ШР o 2At НЕТА) | 4.037 ШТ: 
| шерту: | р 
жі 1 27 个 (包括 空白 ) : 1.12 CT EP 
ГЫ зоват) | 4.35 斯 拉夫 字 


汉字 是 一 -个 相当 炭火 前 字符 集 , 最 近 开 始 分 册 嚼 版 的 : 没 语 大 
TR, MENTES 006 字 , 日 常生 活 和 报刊 杂志 上 用 的 汉字 
Ж#Н А.Я т Н.Х БЕМ с ИТ Р КУН ЖИ У Ж 
HH., Ж.Ж ТАКА EAEAN 
其 计算 是 十 分 党 复 的 。 

ЖА ИЖИ КИЕЛИ К ЛИЕ ЖОКТЫ ЕЕН, 在 
实验 过 程 中 ， 我 们 发 现 ， 昌 然 汉 字 有 将 近 6 万 个 ,但 我 们 在 计算 汉 
FREH, HRA DERRE SERFER, MEH Ж 
到 12 366 FB FA ESE Y, PREH, H OPW ENCHH IME KU 
FAREL 3661-1719. w); 

第 一 ， 随 着 汉 字 容 量 的 增 大 ， 文 名 中 常用 汉字 的 出 现 概 率 逐 
渐 趋 于 稳定 ， 不 会 百 有 了 明显 的 增 大 。 

例如 ， 常 用 认 字 “的 " 字 的 出 现 概率 随 闭 汉字 容量 增 大 而 蛮 北 
的 情况 如 下 ， 


2.9.5 “的 * 字 的 出 更 概率 
Юри | 1002 | 1830 | asz | ым | san 
0.051 | 0.042 0.041 | 0.041 | 0.042 


Бойз. лнн ШЫ, MUFRE E, AART A EH 
1052 K 3]1530, «ВНЕ HO. 051 ЖЕ 0.013, jH 
ЁН ЖОМ ЧЁ ЧЕ КЖЕ} К, SAEN BL SE W WS ETO. 042, 

汉语 中 “的 * 字 的 出 现 概率 景 商 ， 因 此 ， 汉 字 的 贡 现 概率 P <Ç 
0.042， 寻 Pi; 在 区 间 (0, 0,042) ру, ТЕ о, tjs 
-Plog PEFP НОНЕ ВИТЕ, MOE5 2 SB, 


22,6 = p.408.: р, Жр, i mi Il 


p | бб | 0.010 | 0.020 + 0.070 0.010 


. р) | | . 
—nlog,p, ! 0.009056 ' 0.088499 | 0.112877 0.151767 | 0,1857504 


`. Fsvcra 


我 们 可 以 作出 如 下 的 图 你 ( 图 2.2.13。 

从 图 2.3,1 及 表 2.2.6 中 可 以 - P loa, P, 
看 出 , 当 户 拓 0.042 时 ， 没 语 中 出 ne 三 
ЖИР 较 高 的 汉字 ， 它 要 相 应 so: / 
PJ- Pilog P ti ЖЕШ, ИЕРГЕ "| РС 
т-р Nq {Ш H, АРА 
的 影响 也 比较 大 ， 既 然 这 些 常用 ая 
汉字 的 出 现 柱 率 随 着 汉字 容量 的 
扩大 而 趋 于 称 定 ， 亡 以 包含 在 一 用 2.21 -plon P.P W X: g 
Е ЕЕЕ ТЕ еве 

$, Wifi BEBE Л Чт, {ЦУ ШЕЕ ЛЕ А 
极 低 ， 随 着 六 字 容 景 的 增 大 ， 这 些 非常 用 汉字 的 出 现 概率 还 会 有 
ЕЛ, 网 而 包含 在 一 个 议 字 中 的 篇 值 H Ан лу АЛШ Dk 
时 随 着 汉字 窒 妨 的 护 大 ， 文句 中 叉 增 加 了 一 些 半 的 非常 用 汉字 ， 
从 而 能 包含 在 一 个 汉字 中 药 箭 值 H ЖЮ ЫШНА ТШЕ 
ЭЕ ЕА H OE АОН У АВВ, ААЖ E 
Ж, LS М ИНН, А АД» 

ЗБ, KHADE ЧЫН ИКА Бн AR ЕВЕ ЕН] ВНЕ, 


а 


= 
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ар НИНЕН, ЯКА НОЙ ТИ? 也 就 是 说 ,我 们 能 
МАНЕ P ШИ {@ Н, 不 再 增加 的 最 大 汉字 容 
BH? 
RATRE TARRE EA, Ф 
НЭР ЕНЕ УЯ, 


Р, = Cr-! 

Ит, Са, ЭРС = 0.1，" 是 序号 ， 已 是 序 

导 为 r 的 汉字 的 频率 ， 这 里 我 仍 可 以 把 它 磊 作 是 汉字 的 概率 。 对 于 
r=1, 2, 66, п, #3KC = 0.1, 8 


之 P= 1 


Pel 


起 中 的 P, 也 就 是 我 们 这 里 的 Pl， 故 有 
| ЎР, - 1 


把 表示 齐 普 夫 定律 的 公式 Р, = сИ E ПИТ УЕ 
Pi= Ci-! 


代入 上 式 ， 得 


SP 


ке 


DE 1 
BIC =0.1， 从 而 有 


因此 


O mato eri oea У, («情报 科学 >》。1983 年 第 2 期 ， 


* 126 * 


X i =10 


I=1,2,3' h, WE 


如 果 求 得 了 # 的 值 ， 那 么 ,我 们 就 求 得 了 使 文句 中 各 个 词 H 3 
概率 之 和 为 1 的 最 大 的 汉字 客 量 。 和 欲求 na 指 精 瑞 和 侧 ， 可 以 把 调和 


SERERE + 1... +L L 
= 2 3 n 


脐 议 逐 项 让 加 ， 丰 加 到 多 少 项 认 其 部 分 和 等 于 10， 那 么 ,nn 的 精确 
全 就 是 多 少 。 介 这 祥和 做 起 来 运算 量 大 上 大。 这 里 介 绍 一 种 求 m 前 近似 
值 的 方法 。 通 过 一 定 的 数学 推导 ， 我 们 得 到 近似 公式 


2 i mln + c 
Жир, п, C = 0.577215", ЩА, 
左近 似 公 式 可 得 


НАЈ К 


lan = EP 
loge 


(їп& Г, ов ёлу ШАР, es 2.718248, ЖАЯ 
ЖИЛЕ 
得 到 logn = lns + loge = Inn x log2.7 1828 
229,429785х 0.434292 4.0922213 | 
n= 12566 


67127 • 


计算 结果 告诉 我 们 * 当 汉字 容量 人 约 等 于 12 366 圭 ,这些 汉 字 
ЕЕ 如 果 再 增加 新 的 强 字 ,这 些 新 汉字 的 贞 现 概 
率 对 于 败 个 洛 言 的 数学 面 琢 不 再 会 有 明显 的 影 响 。 当 根据 讼 字 的 
Ня мнн, 时 ， 如 时 汉字 穿 量 超 出 12 266, ЫК 
Ар ШИ {ЕН 就 不 再 增加 了 。 

根据 这 个 结论 ;我 们 不 必 在 近 6 万 个 汉字 的 容 景 内 来 计算 汉字 
BiH, ARTEL 366 个 汉字 的 容量 内 类 计 算 就 足 跑 了 ， 这 样 ， 
ВКЛ УЧУУНУ ТЕ, ТЕ ТЧ, RITR 
得 了 包 会 在 一 个 汉字 中 的 粮 有 | 509,65 e И E te РОЗЕ 
中 包含 在 … 个 字母 中 的 议 H KEAS. 

W АНН. К, WW FD SUMA B К, ХАЛААШ 
ib Hi, ЙЕ МИИН, 大 ， 也 导 了 时 说 明 其 不 肯定 性 程度 很 天 ， 
Ж ИБАК ЛЕНЕ ЖЕТЕДА ИЛЕ, ЖИШШ 
的 科学 技术 来 克服 这 些 困 难 ， 是 我 们 中 国人 的 光 药 使 命 。 目 前 ， 
我 们 在 这 一 方面 已 取得 煌 当 太 的 进展 。 

我 国学 者 还 计算 出 汉语 书面 诸 的 完 余 度 。@ 在 宛 祭 度 的 计算 


公式 


_ H, 
R=1- + 
BH. БИИ, H, ЕЖЕ BDE K НИГИ ЛЕН, = 
los nE RRE. BA ARREA 0004, ББ РИН, = 
leg 111000054 СРЕ ЗР 42), {Н HAR TOF ОД ИЧИШЕ 
还 很 光 ， 态 以 ， 至 今 为 止 ， 我 们 还 不 能 直接 通过 汉字 的 电 现 概率 
及 各 种 条 件 报 率 来 计算 汉字 的 静 限 焕 H.。 只 有 通过 间接 的 办 法 来 
佑 算 。 
现在 ,国外 已 经 求 出 英语 字母 的 极限 科大 约 在 0.28~0.27( 十 
进 制 单位 ) 之 间 。 我 们 可 以 们 中 英语 文 为 桥梁 ， 根 据 英 语 字 母 的 


TO 钵 联 全 ,关于 汉字 斑 计 符 证 的 多 个 辣 题 *，(e 话 文理 代 化 ?1980 年 ， 
1. 
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汲 限 六 来 估算 汉语 书面 文章 中 汉字 的 极限 箭 ， 从 而 进一步 计算 出 
Fr ТЕА S л PRG T n ДҮНЕ, 

B ЖЕНЕ АТК E БИЯ ЕУ ЛНА ООА 
等 ， 则 有 

Н.х = Нух Ж-Н 

实验 测 出 ， 天 不计 黄 文 的 空 档 时 ， 英 语文 章 中 的 英文 字母 多 
与 同样 内 容 的 汉语 文章 中 的 汉字 数 之 比 约 为 9,7 左 右 , 即 一 个 汉字 
大 约 相当 于 3.7 个 英文 字母 ， 而 英语 的 报 限 MR Н.С) 在 0.28 到 
0.47 之 间 ， 由 此 推出 汉语 的 家 混 精 JJ。( 充 )? 在 1.01 到 1.74( 二 ' 进 制 
单位 ) 之 间 。 汉 语 书 锁 语 的 完 余 度 记 为 RK 汉 )， 根 据 宛 余 度 公式 


676; 
ЁС =] 9:0 = 
iak H CRO 


TER MITU Еу ЗЕК @ ЭШИ ИКЕЛЕ ЖИЕГИ ЕНЕР ДЕБЕ М 
与 ?43 之 间 ， 其 平均 值 约 为 65 %，。 

现在 世界 上 各 种 语言 的 完 余 度 中 , 汗 算 得 比较 精确 的 是 英语 ， 
ЖАШ (N Burton HEARS (J. Liekiidory 两 人 根据 申 农 的 
ARAR LRE ERE EBBER TA ETT u ago 
之 间 ， 其 荆 下 限 攻略 癌 于 汉语 书面 语 的 冠 余 底 。 邓 
另外 一 些 实 通 也 表明 ， 印 欧 语 的 抑 余 度量 高 于 汉语 ， 请 君 表 


1.2.14 5-3 И, ЖЕТУ ТРЕ Е ОВЕ ЕЮ ЛЫ НЕ 的 数据 
HA HA. IA E E tH ‚ЖЕЕ ШИИ ЛЖ ЛЖ 

Q: М. Buton, J. Licklider, Lonerange constraints in [йа stotis- 
tical Structure of pr nted English, The American Journal of psycho 
logy, 68, No 4, 1655, Ж620--65511, 
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ШЕ EE AR Н WH УПБ 


п iÑ | 0.777 0.813 0.792 0.757 0.753 0.801 
小 j 0,812 0.791 0.745 0.7735 0.918 0.782 
科技 节 刊 0.368 0.866 0.835 0.8720 0.875 9.822 


а ИНО, WRAL BA 
+T. N 3930 3810548l00% Еш, BRA ЁЛЕ} АНИ ШИИ А, 
Ж, ЕЕ ИНАЯ, WEA 2.20, O 


[ 


ЖИЕГИ Н, Ба ЕТ Un 18, 
ШОЛ — 2 ТД ЕЛ fh, 
ПА Ге Рр ЗЕЕ, 
РУД РКО ЕТАР Z, 
Ке Лр. 2 

12.2.2 KRENKE 


试验 结果 ， 有 一 半 刀 上 蜀 太 在 限定 的 时 间 内 能 把 笔画 省 略 了 
55 六 的 文句 ， 完 全 正确 地 恢复 其 不 次 :在 上 时间 宽 糙 的 条 件 下 ， 心 
ЗЛ ВЕРН воо ау ЛО, ERRATA, 

ENERE ARAR E GR H. 
Е ЕЕ РО H, 

ЖП т-р АГЫ ЖЕ, 
ЗК B BU ЖЕРК Жү АЕ ЭЕ Б ЗЕ РО ИГЕ АЁ, 
ЖИП ha qhany ЕЛЕТ, 


Ф wil. ЕИ, ЕЖЕ, «БЕИПИЛ ЯТ: 工 文句 中 汉字 笔画 的 
省 略 当 恢复 >， СД 0), 1965449. оссо 

名 ”这 个 试验 是 在 1965 年 进行 更 ， 其 中 用 了 几 趟 北 体 字 。 不 够 规范 ， 而 
He REEERE TI R, WI eA a E REE ARE t 
WIRA H a 


• 730% 


aK bay mh T as Ba ЕРУ 5590 88022 1, 9 
要 所 英语 示 算 的 汉 庄 书面 语汇 余 度 $6% 到 74% 之 间 甚 环 不 大 。 

汉语 的 完 余 度 比 英语 低 一 些 ， 说 明 汉 语 比 莫 滞 “ 简 隶 ”一些 ， 
而 “ 难 模 ”一 些 。 启 谓 “ 箱 练 ” 一 些 ， 就 是 对 回 一 篇 文章 ， 中 文 
将 比 英 文 短 ~- 些 ， 册 请 “ 玲 乙 ” 些 ， 指 从 平均 的 角 寞 看 ， 文 章 中 
对 于 同样 长 的 字母 序列 ， 在 语义 方面 给 人 们 的 预示 能 力 闫 一 些 ， 
或 者 说 ; 它 的 语义 责难 提 模 一 些 , 诺 义 的 不 肯定 注释 寥 埋 大 一 些 。 

А З рл АРУ. Эс Вуля ЕТ, CAE 
ВЗА А, АУТО ВЕЕ А, ШИШИ ВЕ, ¿x 
ERREA HH В, TRER RLRE RRS., 
文章 就 显得 不 够 精练 ， 这 是 它 不 利 的 一 面 ,因此 ,一 种 语言 文字 ， 
它 前 元 余 度 不 宜 过 高 ， 烛 不 宜 过 低 ， 宛 余 度 过 高 或 过 低 都 会 给 学 
习 和 使 用 带 来 困难 ， 现 存 的 各 种 发 达 语 言 ， 部 把 自己 的 完 余 度 在 
语言 的 学 习 和 供用 胡 实 践 中 不 断 地 谢 和 到 最 佳 值 。 
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语言 符号 的 离散 性 与 集合 论 


第 1 节 语言 符号 的 离散 性 


语言 符 号 是 由 一 些 离散 单元 构成 的 ， 具 帮 离 知性 。 

我 们 平时 说 话 时 的 语 流 似 乎 是 爱 续 不 断 的 ,但 在 实际 上 ,这 些 
连续 不 断 的 语 流 却 是 由 许多 离散 单元 所 组 成 的 。 在 水 平方 向 上 ， 
语 流 可 以 被 分 解 为 若干 个 段落 ， 一 个 区 沙 又 可 以 被 分 解 为 若干 句 
宁 ， 一 个 各 子 又 可 以 被 分 解 为 若干 短 次 ， 一 个 短 诸 又 可 被 分 解 为 
著 干 单词 ，- 一 个 单词 又 可 分 解 为 若干 语素 ， 一 个 语素 又 可 分 解 为 
EFRY, -DEPUNERE T ERRERA. EREN 
Hi, ЖЕЛЕТ ӨЙ л ГЕВ, UKAT 3 Be 
BETTERE E. НИШ, TERRY ED USE EY H 
L, ЗЕ ЕГАИС АОВ В Ж ҖИЗ. 

出 如 ，“ 合 上 举荐 主席 团 ”这 个 句子 ， 在 水 平方 向 上 ， 可 以 
分 解 为 

“i Z t. Z Z 38 Z 3: SER" 

五 个 离 数 单元 。 而 在 坚 直 方向 上 ， 这 个 避 了 中 的 每 一 个 离散 单元 

*]32 • 


痢 可 以 引出 一 系列 与 之 癌 纱 芍 离 散 音 元。 名词“ 台 ? 直 出 名 词 " 墙 ” ， 
JE S Ra k ES Aa EEA S hAm He, ET 
形成 与 之 平行 的 甸子: 

“ЮМ ШУ ЯА ДЇЙЇМ” 

Т ТРН ЕНГ БЕЛАН ПЕ] Ba ЕЛЖ —}ф° R 
可 以 形成 如 下 的 系列 癌 类 句子， 


“ШУЛАР Ж Zk HU 
, ! | 


+ + Y т + 
“И LAIA Z Р УНИ” 
f + 3 x 1 
ИЗА? 
; í v ç 


“ку алалат 
WATA 


| 
“L Z L Z ССЗ 
“hkg 7 
ИИ ТИЛИ. 


ШЕТ НЕН АЕН ЧӘ, 
Ni + PCH) +V r 38 + N, 

Җир, NMAN ERAH, УНН, 

BOE ЗР] И Н ВДА ла, TENA 12 9k, Yeu 
以 是 周一 个 词 的 不同 变化 形式 。 例 如 ， 在 英语 中 ,由 单数 名 启 
man 可 以 联想 到 其 复数 形式 men， 几 单数 第 人 称 动词 让 可 以 联 
НУ А аге, ШМД Ы teacher 可 以 联想 到 其 
复数 形式 teachers, 30, IJ T this man is my teacher" 就 
ИЕЛЕ LS EO {Т ПЧ T. 

“these теп ате our teachsr’ 

WER GERPE ROE, ЖЕБЕ ШЫН Е Н sa, 
AMIERT AA EERE PE ОЕ Д, ЖЕШ ЕШ ЛИН 
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бм, Ф 

Д (C.Fries) 在 他 的 : 英 诸 结构 3 中 提 到 “5 
WRL f AAT, 17. 268. БО | [ЗЕ ШЖ 
表达 的 要 求 ， 适 当 让 在 半 流 机 公信 延 ， 计 可 以 区 别 这 些 不 同 的 
答案 

о Ер 76083 = 27 

5J АЗЕ Z66983 = 17 

БЕВ {#3=51 

53817 АВАЗ = 26 
这 样 的 合子 还 不 少 ， 如 ， 


үт ТИВНИ ТҮ ЛЕ 
ВСЕ ЖАШ ДУН 
pn Ж 下 去 了 

他 二 说 不 下 去 了 

Ац RAN A EBET AF 

Timu 的 一 病 还 设 有 好 


最 后 一 个 句子 中 “他 妈 的 ”是 骂人 话 。 

利用 语言 符号 性 这 种 离散 性 向 以 故意 造成 阴 销 阻 差 ， 在 某 种 
НТ НЕЕ А ЧЕН, О АЕ ЕЗ Б ЧН ЯН 
ЕС С AA КИШ 

ЖЕЙН ЕПП ИН T КО. АЖ; “ЫН д АШИ. 
HR, FAE: РАШАТ уН, 
ЗААН, МН Д, ОЕЕО S iF, ЖАШ ЫШТ 
ШУЛУК, CARY “АНАЈА, ГАГА", FAREA “JE 
ЖаШ, АЯТ”, SORIN ERA Y R, 

АВ ЕКИН Sik uM E T 408 要 起 一 个 Ë 


TO А ПИ, GELEH, 195903, 3H. 
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ж, А ШИ" ER. Garm Г» ЕВ, Wi Ad” Н) 
їй, ЖАГЫ arik LR ДАДЫ”. Жл ЕКШЕ ШЕЕ 
Ж А, ЖЫҢЕ-ЕТДЕ ДИ Y 3232 T NA, ЖТИ. 

WP НУЧ ТЕЕ 18] 55 AZARES, ЯЗ ИКЕ ЕН ЕВ 
=н, ETER BEE Н рЫ 2 ир ДО ОАЕ k Ж 
这 种 情况 ， 给 汉语 的 自动 名 法 请 义 分 析 造 成 了 极 大 的 困难 ,因此 ， 
汉语 目 动 句法 语义 的 第 一 步 便 是 自动 切 词 ， 根 据说 与 词 之 疗 的 离 
襄 特 征 ， 拒 棚 互 过 在 一 起 的 启 基 开 。 汉 语 书 面 谨 自 动 切 泣 的 问题 
ВИП рс ВНУ, ШК, 

Е З ДИ (М Joo ЕЩ a A ВХ Я 
ARGOED. Пата, СЕВЕ А-—ДЕЖ КЭН, ЖЕБЕШ (ЇЙ 
如 ， 无 限 小 基 的 计 等 ?或 离散 分 术 〈 例 如， 有 限 群 理论 ) ,而 可 以 
称 为 语言 学 的 那个 部 门 则 属于 后 者 ， 这 时 ， 它 不 容许 与 连续 性 有 
半点 此 妥 协 ， 因 此 ， 语 言 堂 可 以 说 成 是 一 个 在 严格 意义 上 上 的 量子 
机 制 ， 郊 是 与 连 钱 泪 有 关 的 一 切 ， 都 得 排除 于 诸 言 学 之 外 ."“ 央 
此 ， 详 言 学 的 范畴 着 绝对 的 ， 是 不 窜 许 任何 妥协 的 。? 他 还 说 y 现 
在 ， 语 于 学 家 把 任何 酒 元 ， 也 就 是 任何 一 个 言 诸 行 为 ， 看 成 是 出 
叫 短 音 位 的 不 天 数量 的 基本 芋 位 组 成 的 ， 这 些 彰 位 在 重复 出 现时 
被 认为 是 等 后 的 。 丰 物理 学 的 衣 度 米 爱 ，hoiel 这 个 词 对 于 不 辣 闻 
人 或 同一 个 人 发 音 ， 不 可 能 完 爹 相同 地 发 两 次 ， 但 只 语言 学 的 角 
度 来 看 ,这 里 却 有 一 个 平均 数 5t 它 始终 是 同样 的 ,可 肌 不 管 它们 
的 细微 的 差别 而 把 它们 看 作 一 个 不 可 分 解 的 语言 学 原子 或 范畴 ， 
这 种 访 了 或 范畴 ， 或 者 是 完全 等 同 前 ,或 者 是 完全 相同 的 ?这 时 ， 
朱 斯 十 分 明确 地 把 语言 吞 成 是 “不 可 分 解 的 请 言 学 原子 或 范 卫 ” 
离散 地 结合 起 来 的 ， 因 过 ,他 所 六 用 西数 数学 来 研究 语言 。 他 涪 ， 
“物理 学 家 利用 连续 数学 来 解释 育 语 ， 如 傅 利 时 分 艇 、 特 相关 函数 


ФАКТ, ВОН ДЕ. Нагагу H.H paper, Toward а genera] 
calcuins of phonemic distribution, <Laugu age, Yol, 33, No,2, 第 143 一 
1694 
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Ж, ПЫ ЗС АИИ, QUB ЖООСУ ЖЕКИ P." 

朱 斯 上 述 关 于 语 凑 符号 的 离散 性 的 伦 述 似乎 有 点 JL ВРЕ 
正 。 请 言 符号 当然 琴 有 离 谨 性 的 一 面 ， 办 此 ， 我 们 可 雇用 离散 数 
学 来 研究 它 ， 人 但是， 语言 符 号 也 有 连续 性 的 一 面 ， 特 别 是 在 语 凑 
欧 使 用 中 ， 在 语言 的 们 际 过 程 中 ， 我 们 了 岂可 以 利用 一 些 连 鳞 数 党 
前 方法 来 研究 它 , 朱 斯 到 把 “凡是 与 连续 性 有 有 关 的 --- 切 ”, “者 得 排 
ETRAS, MEERES T. PRE ARE M oE 
续 性 ”都 是 语言 符 全 本 身 所 具有 的 性 沽 ， 不 过 ,在 语言 的 使 用 中 ， 
我 们 强调 语言 符号 的 连续 性 ， 用 连 然 数学 的 方法 来 研究 它 ， 存 语 
言 的 结构 中 ， 我 们 强调 语言 符号 的 离散 性 ， 用 离散 激 学 来 研究 
©, 而 语言 本 身 则 是 离散 性 和 过 线性 的 统一 体 。 当 然 ; 米 斯 突破 了 
语言 学 界 关 于 濡 衣 符 导 的 “连续 性 ”的 传统 观念 ,把 “离散 注 ” 
的 观念 引入 语 育 党 中 ， 从 面 为 漆 用 离散 数学 米 研究 语言 销 平 了 道 
Р, PERIS EHE ДЕЛ ИГ PKS 


第 2 节 ”语言 的 集合 论 模 型 


ШАВЕН k It 45 ЖЕТИШИ u ЕНА АО, ЯБА, R 
们 就 可 以 把 这 些 离散 痊 元 看 成 集合 前 元 素 ， 采 用 集 食 论 的 方法 来 
研究 它 ， 这 样 ， 语 言 研究 便 与 集合 论 发 生 了 联系 。 

苏联 数学 家 库 拉 金 媚 (0O,C.Kynaruna}) 在 厂 究 机 器 翻译 的 实 
上 成 中 ， 采 用 集合 论 方法 来 描述 语 青 的 某 些 基本 碧 念 ， 提 出 了 语言 
H el. Ф 

B АШ 62 y M f Sma zx， 元 素 z 称 之 为 “ 癌 ?。 

T 0, C, Кулагина, QG одном способов ойцпределених грам- 


матішеских понятий на базе теории множеєтв,єпроблемы кцберн. 
атанч» выть 1, 1958,35201—2314m, 


" Tb 


Eye, йлн ТОТАР], ВАГ D ° Hj 
f”, A = туг, Tas 

句子 的 … 切 集合 分 为 两 个 子 集 ,成立 名 子 ”的 子 集 和 “ 非 成 
TAF” WTR 

RETER EB RJ EJ, WURR. MER Far. 
确 ， 是 指 语法 上 正确， 而 不 是 捐 语 义 上 正确 。 因 此 ， 在 俄语 中 ， 
"Стол стоит на полу” (APIE F) ЯП “ T ynot куст 
вразвалку хихикпул” (HWE “R PER REA pip Ha П", Е 
只 是 在 语法 上 正确 》 WERF, WL On пошел в щкола ” 
ЖЧ и рр, НОУТЕ БАКТЕ. BRA h] op А, WA 
Ө= (А), 

某 一 个 词 的 完整 的 形式 系统 ,也 就 是 , 某 一 个 词 的 词 形变 化 的 
全 部 形式 的 集合 ,叫做 这 个 词 的 “ 域 ”COrpeTHocT5)。 秽 如 ,对 于 潭 
Стол A- A Стол,Стола,Столу„Столом,Столе,Столы,Стлов 
Столам, Столами, столах ty, CIR столу Ai lz 
HARR ATE). 

Зар, RVT, О НЕТЕЙИН ELK, € 
TIREE PF RI ЕТЕ) 

库 这 人 金 闭 从 这 三 个 经 念 出 发 ， 演 经 二 引 巾 出 其 它 概念 。 

НОН КОВ Ар Рр, К рну", Јао) 
ET, ©), 


彼此 不 相交 的 子 集 的 并 称 为 集合 写 的 分 划 。 гоа 三 分 
车 为 彼此 不 相 变 肥 子 集 之 并 ,了 咎 可 得 出 域 的 分 划 ， 记 为 [分 划 ， 

RESIA HA ЕО, BiH, аја РУ, рух ~ 
y, Ш, 

РЕ ЕТА ХА КЕЙ рр, 4J TA УА АВЛУ: 

2. 对 于 性 条 一 个 形 姐 B13B; 的 成 六 人 条子， 多 于 B.xBs 也 成 立 。 

4:、4:、Bi 和 3B: 征 任意 的 句子 ,它们 也 可 以 是 不 包含 任何 一 
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щн) ERTI a 

等 价 类 具有 如 下 的 逻辑 特点 ， 

LERE: sos 

2. 对 称 性 ， ЯП Ш, 

З.Ж, 如果 zx~y， 且 y~?， 则 2~z。 

具有 上 述 三 个 特点 的 等 价 ， 把 集合 三 分割 为 一 系列 不 相交 的 
了 集 ， 这 种 子 集 虽 仇 “ 族 ”(ceMeiicrB0) ,两 个 等 价 的 元 素 进入 同 
一 个 奢 中 ， 而 两 个 个 等 价 玖 光 过 则 进入 不 辐 的 族 中 。 训 x 的 庶 , 记 
HSE). 

例如 ， 我 们 取 俄 语句 子 

{1)Я подшел к окну, 

(RERBA 
(11)Прямоугопьник,равный окну,очень красиво, 
СГА ЛИЗ E ЛЗ Ж Ж TB IF) 

Сі, окну РД t E E И, — ЕЯ подшел 
k ,一 个 是 窗 词 串 。 在 这 个 环境 中 ， 出 现 词 crory,nermopeky 等 仍 
{зт FWA ЙС), окну ш g “Прямоуголъник ра- 
BIN? Б ‘очень красиво? 3 ВК, ШАХЕ E, 
“H Й ајстолу, пеловекузе (лЗ h] Ta БЫ, окну, столу, 
человеку ў, RFA. 

СО ТЕЛУ ЕЛАН РЕ г. ил] HDE 
分 划 ， 记 为 5 分 划 。 

这 样 ， 我 们 就 得 到 了 用 不 相交 于 集 系统 的 形式 来 表示 词 的 全 
部 集合 的 两 种 访 法 ， 这 就是 T 分 划 和 5 分 划 。 在 这 种 场合 下 ， 如 时 
我 们 不 管 分 制 出 子 集 的 标准 是 什么 ， 而 用 彼此 不 相交 子 集 Bi 之 并 
ЮЕ Жл ЕН, В 


三 = B (JBU) UB UJ B, UB: 
55А, RMREEERZJRSETHB 2 X|. #x€B;, AEB 
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FREY, 
如 果 每 一 个 子 集 只 由 一 个 词 构成 ， 我 们 就 把 这 种 分 划 称 之 为 
分 划 。 显 然 ， 下 分 划 是 B 分 划 扔 一 种 特殊 情况 。 
现在 我 们 引入 甸子 A 的 8B 结构 的 概念 。 取 任何 一 个 入 子 
A= XI 
我 们 把 子 集 
B(x YB (a, Bx) BCX,) 
的 序列 ， 邵 在 综 定 的 B 分 划 中 ， 户 区 扬 进 入 的 村 集 的 序 判 ， 称 之 
为 句子 和 的 B 结 构 ， 记 类 B(A)。 
我 们 到 同一 个 铭 子 
А = раздапся ззонок( b Щу) 
ЖЭ, ЖАЛЕ ШУЛАР F. KAFRA ВЕ НУ. 
1 .在 了 分 划 下 ， 了 结构 有 形式 
EA) = {раздалея }{звонок} 
ВЕ, ШИЕ. 
2 .在 $ 分 划 下 ，B3 结 构 有 形式 


Í раздался ] 3B0HOR 
зазвонип | нож 
уехал À клуб | 

(АУ = 

‚шел | трамвай ` 

ппакал | | . ЕЕ 


这 种 B 结 构 ， ГОА 
З.У, BRAJER 


` лаздатъся `) звонку 
l 
1 разлалея | 3BOHKC 
| раздалосъ | звонками | 
ГА) = | ; 
разлалчеъ | звонки 
разҳаютея | ....... 
i 
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HBA, MATAH. 

Ш paf — ARTTA TE BAA., ДАВА 
ЕЛКА АК а 

RP FB БШ SD ВЕНЬ BH BiB, ШЖ: 

LPE- OEI BCA BBA D ВОЛЗ АН, JZ SRE 
ВСА, УВ;ВСА „Уй, ЗҮ 

2 .对 于 任何 一 个 形 如 BCDP , ) BRO a) 的 成 立 结构 ， 结 
BCD B B(D ,)48 Дл], 

可 以 看 由， 前 面 引 入 的 误 种 等 价 的 谍 念 是 B 等 价 的 一 种 特 Ж 
悄 癌 ， 屠 种 等 从 叫做 等 价 。 

ATHE BAHTERA НЛ Е. ЛКИ 

ХИЙ АРАВА, НЕА. “SH. рет 的 概 A 


一 


1 2 
设 有 其 个 B 分 刘 


FIAR RABE OO, EBATE AEE, 
В'(х)= Us; 


B. BE 


Eeh. B CY) 是 让 给 年 B 分 划 下 ,与 BCx) 处 于 B 等 价 的 -一 切 子 
В, З, AAB REAR B TE AREE 
IB] F T Жн, EAB P ДИИ TE, Ж 
入 集合 (全 的 不 同 的 子 集 之 中 。 最 然 ,在 给 定 B 分 划 下 ， 代 合 18“ 
ERRE AEM- T SMU ЮН 


= z-s; 
这 种 出 3 分 划 产 生 的 把 集合 二 gaya ПЛО К rR 
并 的 新 的 分 划 ， 称 为 了 分 划 的 导出 分 划 ， 所 为 也 。 
ДИМУ, TAMB PURB” peee FS Ae Е HH 
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Lusaka 


了 ， 出 导出 分 划 B 产生 的 导出 分 划 了 "与 原 导 出 分 划 B/ 重合。 也 就 
Eik. УРН В, A 
B” = В’ 
I 分 划 和 前 导出 分 划 ， 则 做 型 *CTHN)， 记 为 了 。 期 ;T= 了 T。 词 
as WIKA 
一 般 语 浅 书 中 的 词类 很 几 近 。 便 如， 我 们 到 这 样 的 起 ， 
сешп, -ая-, -ие® Зе J S 
2.Ё{ї1]силъныч, ая, -ze 等 等 的 一 切 形 式 。 
显然 ,这 两 个 域 是 彼此 3 等 价 的 ,因此 ,它们 属于 一 个 型 。 词 ompztOE 
前 一 角形 式 ， 词 caapkzHi 的 一 切 形式 ,以 用 梭 语 其 它 形 容 词 的 一 切 
形式 都 进入 这 个 型 中 。 可 见 ， 型 T (бэлъшей) 很 接近 于 形容 启 。 
这 时 ,如 果 把 不 同性 的 过 去 册 动 词 也 统一 于 一 个 型 中 (第 二 
AD Må -MAHLERA R -TAART BIAN, 
HETE, Bapak, Wai ЕЕН ИЛЕЛИН 
ж, Ca ИЖЕ Ет ЖОК ASRR, 
TE ЖП ДЕЙ ЧЕ ГАЛИ ЭС ЖЕ ШЕЕ БЕУ РЕ Р — 
+ ЖЕЙ 简单 语言 的 概念 。 
S EC, Ө) 称 之 为 简单 语言 ， 和 如 果 在 该 语言 的 域 与 旗 之 
H. MEFRES ER: 
1. 对 于 任何 的 ze 
Гг) S(zy= x 
Жл йү, ЖОЕ ADI T buri PJU U T T R 
LIRL ELD), YES ЖА, 
SNr 2 
Мт, MRA ATE P, XAAS P ЖА, 
EMRE A iY CHASCO Ht. 
ЖА жнг. ЖИ таз) (ту, ВНЕ 
іп (ГСУ), ЭХ, ERSE SIP (uB 2 82 ЗЕ SK ИН 
EPH- дш” 


s fdf 


ТЕ АЯН PPE КЕ ИН, BARER- ORA ДЕ ЕЈ Jj 
WH. TREKK, A 
Г(етул) Г 5їстул) = стул, 
对 于 捷克 语 来 说 ， 有 эх) 
T(stü1 50500) = stål | 
{В НОЕ Д 5 К, | 
实际 上 ， стулЄГ(стулъя), ! 


pekt E 5(стулъя), {О ДЫН. Ш] arj- *----—--_-- 
стуля БДотулу А В, Ж ла сэ) 
Б реки 进入 一 个 族 中 ， 即 有 图 3.3,1 简 单 语言 条 人 村 示意 图 


Г(втулу[|5(р@хи) = стулья, 
18.32 ,5(стул) ГОрёкиу = 27, Е, НЕГ АВЕ ВЕЗЕЛ lq 
реки н, ЖН Ж А стулун, 
жарт ELE 


图 3.2,2 ЖД Втр 


3.2.29, ЖААТ, WERE Ел IKSO 
ЕИ Г(стулья) ПН 8:660. 

ИШАА Е 3 ЗЕ, TRAE P, ар = 
族 。 例 如 ， 
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тро"? ^ак ЕИ 


nový sůl 


пома tužka (HPB) 
ЧЁ поуё pero “新 钢笔 ) 


捷克 语 的 名词 复 数 记 有 三 个 旗 ， 但 是 ， 它 们 是 按 与 单数 木 局 的 另 
ЛР, ВЯ, 
АУМИН novi žáci Co D р aj ze) 
КОШ stoly Сяр 
阴性 nové 102Ку Сет ЗВ) 
{г nová pera 《一 些 新 钢笔 3 
СЕ, ВЕРЕ АТВ АВЕ АО АБА КРАВЕ A трон 
а RAS ВЕЛ АН ЕҢ ER, 
+ р, ЖЇН 
Lsthl) r SCušzky) =stoly, 
而 
БОЙ) П Ску) = Z 
Ж, SUN RSU A ЖОКЕ КЕНЕ ЖИ, УЗЕ REKER 
BRR ЕИ, 


33.9.1 fE w IB ЕНӘ 
H 数 | КЕШНИ | 非 人 称 昌 性 ЁРЕ 中 性 
_ & | iE ГО] 

捷克 语 2 Z 
м1 |i o] d 
ж | ` ĵi |1 Шш 

GAR р — 
яр | 


ERREP, ТАЕНЕ -MARMA ИНИН, Ж 
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Za ТОЛУ А Ус, с, ТОАГ ИЕ ЛУ 
ig. ЕЕ ЧА, СОКА tA 
难 的 。 
最 后 ， 库 拉 金 九 还 提出 了 “8 格式 ”(B-KoHgurypasE9} 的 概 
联 集 合 三 的 任意 B 分 划 , 我 们 把 这 样 的 3 结构 称 为 一 级 格式， 
记 为 BB acs Wr 

1.8 п AH apuy Жр W: 

2. 存在 着 B 分 划 的 元 素 B。.， 使 得 B 结 移 BC Ауд a, BCA.) 
ARA В, ВСА ҮЕ ГА: УА, на, ШЕЛЖИ: 
成 立 。 

元 素 B。 W DUE p hay ЗУ bk has Faba t Во, R 
TEE 2% Жл Срезультурующий элемент) ,结果 元 可 能 不 是 
ШЕ RR В, EER зв, А,В 
YB, 处 于 有 等 价 的 任何 元 素 Bi(BiB。,) ， 也 可 以 是 格式 总， 的 
结果 元 。 

用 结果 元 B。, 来 替换 一 级 B 司 式 ， 我 们 便 得 到 一 级 B 结 构 * 记 为 
Вазо 

ЖЕТ, ЛОХ ЮВ HIRA n В}, 1835 
В. ж, . 

LË ,含有 的 元 案 不 少 于 两 个 ， 

2 .存在 一 个 元 素 B., ,使 得 (x – ПЕВА ВСА УВ, BCA.) 
MBES ЕСА B. .BCA,) 在 任何 甸子 A1 和 妨 , 中 ,同时 成 立 或 同时 
Ж НН, КОНВЕН АВА ВСА УВ, „ВСА „УШ 1% 
B 结 构 。 

订 见 ，B 烙 息 的 定义 是 道明 的 ， 通 过 (x ~ D 级 8 结 构 米 定义 
ni 级 B 指 式 ， 通 过 (x 一 2) 级 8 结构 来 定义 C-l) ABRA, Oo. 
如 此 等 等 。 

从 这 样 的 现 点 出 发 ， 我 们 来 分 析 下 面 这 个 B 结 爸 ， 
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$ 


Вемалснькая Ун девочка 1 Н(долго )yBC(nmacrara yB (кошку) 

нову 

Маленькая девочка долго даскала Кошку 

СЛ Ч ВТС Е ЛУД 
ВІВ, 

Mae je Л) В(девочка) УВ (маленькалу В(девсчка?, 
得 到 

Бб девочка)В(долго Basranay Б(кошку), wl ab — 4 M 
УВА. ELE, SIL KO SI a Wk f Hü Н TÁ 2 В (маленькая) 
Вдевочкауі ДУ Bš] КБ sN, ТИ A ky u uy 
进行 这 种 赫 换 的 一 切 环境 。 

我 们 再 到 这 样 的 环 盛 ， 

В(весьмауВ(маленькая`уВ (левочһауВ(столлау 

这 是 句子 

Весъма маленькая девочка стояла, 

GRAHA RRD 
的 8 结 槐 。 

如 果 我 们 在 这 个 成 立 BJ B Bib, JHB (довоча) ЖЖЖ 
В (маленькая) В (девочка), ЗА, {ПЕЙН 

В(весьмау В(депочкау B (стояла), 

ДАВА АВ АЗЕ АК ЗУ B.B DA, В(маленькая) В(девочка) 
不 是 一 级 B 格 式 ， 

ЖЕЕ ЫШ, Вовесъьма) В (маленькая) 是 一 级 B 格式 ， 央 为 
В(весъма) В(маленькая) 在 一角 环境 中 都 可 用 В(маленькаяу 3 
蔡 换 ， 这 时 ， 这 个 了 格式 的 结 浊 元 Bi = Бо маленькая) „ 

草 果 我 们 只 研究 一 级 如 结 检 ， 即 在 其 中 没有 一 线 如 格式 的 B 结 
EJ, ЖИА, ЧЕНЕЙ, В(малснькаяуН (девочка) 都 可 以 用 
Н девочка) РИ, пг, В(малепькаяуВ( девочка y EC 5 BA 
Io CHRR JEB, = В(девочка) 
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ВКА ДЕЙ НИВА» B (anonro) В (ласкала) 是 二 级 
3 轿 式 ， 其 结果 元 为 Banackaaa7。 这 样 , 山 原来 的 那个 B 结构 可 得 
到 二 级 B 结 构 ， 

В(девочкауУВ( ласкала`уВ(кошку) 

如 果 具 研究 这 个 二 级 B А, MA. ТЕШЕР, ЖИГИ 
В(стояла)ҖЖЖ D (ласкала) В (komky), 也 就 是 用 尼 物 动物 来 
ВОВ, AH Тај вену, 

В(левочка) В(етоялау 

ACAS Н, ЗА ТРГА RERA 0-26 
HRE, BESETE ARa, ЖБД 
WADHAN Я Ое е А Е, ШЖ, Ph. mapa. 
对 自然 语言 进行 形式 化 的 描述 。 比 如 上 上述 的 格式 理论 ， 实 际 上 就 
是 一 各 轨 约 过 程 ， 把 复杂 的 结构 一 步 一 步 地 化 为 不 能 再 归 约 的 简 
单 结构 。 这 辞 归 约 药 过 程 ， 实 际 上 就 是 机 器 翻 主 中 进行 铝 法 务 析 
的 过 程 ， 因 此 ， 库 拉 舍 娜 的 集合 论 模 独 可 以 看 成 是 机 器 翻译 条 法 
分 析 过 程 的 数学 模 拉 。 

库 拉 金 娜 把 她 的 集合 论 模型 应 用 到 法 俄 机 器 翻译 系统 的 研究 
中 ,使 这 个 系统 能 够 建立 在 这 种 比较 完善 的 数学 理论 前 基础 之 上 ， 
ДЖО ЕРЕЕН ВЕ ОР СН А НЕГА ДЬИ 
HIWA, ЕЗЕТ Г УВЕ. 

ЗУ Н, Чу ЖЕНЕ БУКЛЕТ (S Marcus) Ж: р ГЕНЕ 
础 上 ， 进 一 步 用 集合 论 方 法 建立 了 语法 性 的 数学 模型 ， 给 出 了 印 
欧 活 中 阳性 、 基 性、 中 性 等 语法 性 的 严格 而 清晰 的 数学 描述 。 由 
于 篇 旺 的 限制 ， 这 里 就 不 再 多 说 了 。 有 兴趣 的 读者 订 参 站 马尔 库 
斯 的 < 代数 语言 学 一 一 分 析 措 型 > 一 书信 。 


Ф 5, Матсоѕ, Algebraic Linguisties, Analytical Models, 
Academic Press, 1967, 


+ jdó» 


语言 符号 的 递归 性 与 公理 化 方法 


第 1 节 语言 香 号 的 递归 性 


语言 符号 记 构 咸 的 甸子 是 无 限 的 ， 如 此 ,我 们 不 可 能 科举 出 
一 种 语言 中 所 有 的 句子 。 在 很 多 场合 ， 对 于 语言 中 革 一 长 度 有 限 
的 名 了， 往往 可 以 采 月 一 定 的 办 法 将 其 长 度 吉 以 扩展 。 例 如 ， 下 
ШШЕ T E ЖЕЙ ЧАЙ ДЕ ДЇ ЗУ. E o 

@This is the cat. GA JA) 

This is ihe саг that caughi the rat. ОХА НРК 

@ This is the cat that caughi the rat that ate the cheese. 

OREP FL КЕ PA RU 38) 

RIH bl pJ O F hl tata “thaM”, ар ӘНЕ 
RAA Ж ТЕРОН ASAP. АЛТЕЙ ЕД У that 
锥 句 ， 只 与 讲话 人 的 记忆 汶 和 天心 有 关 ， 而 与 语 宥 本 身 的 结构 无 
关 。 我 们 之 所 及 平 肝 稚 内 说 这 样 的 套 壹 甸子。 是 国 为 人 类 心理 的 
短 时 记忆 是 有 限度 的， 很 授 心 理学 的 研究 ， 人 们 能 闻 时 关注 到 的 
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事物 ， 旺 时 间 内 同时 沁 住 的 东西 ， 以 及 思维 对 大 上 脑 中 同时 操纵 的 
元 崇 ， 都 不 会 超过 七 个 左右 名， 所 以 ， 当 一 个 句子 中 的 成 分 项 目 
超过 七 个 时 ,大 们 就 会 感到 记忆 条 担 这 重 而 不 愿 说 出 这 样 的 句子 。 
Л, МАЛ ЗРАК, УЕБ НК, RH 
TJ DI: Һас, ртр i hj T РДУ 

Т КОХ НАТАЛ ОЯ ВЕКЕ ЛА, MERKES 
пип tE, 

Н Е АЈА Ар ДЭС В Е. И, 

o 我 知道 小 王 不 知道 这 件 罕 。 

Eo 我 知道 小 张 知 道 小 下 不 知道 这 件 事 。 

O ”我 知道 小 杰 知 道 小 张 知道 小 王 不 知道 这 性 宙 。 

各 子 鲜 是 合 平 语法 的 ， 但 由 了 其 中 的 成 分 项 目 已 超过 滞 个 ， 
所 以 在 实际 言语 中 很 少 会 这 样 说 。 

上 述 的 英语 和 汉语 例子 ， 都 是 语 审 符 守 的 递归 性 在 句法 构造 
方面 的 表现 。 

语言 在 名 法 构造 上 所有 具 诊 欧 这 种 递归 性 ， 在 不 同 语言 里 的 洗 
现 是 不 尽 彬 同 的 。 在 汉语 中 ， 句 法 构造 上 的 递归 性 罕 出 地 表现 为 
ИЕ БАЗ ВТ БЕП ИЗЕЛҮ „ 2 

在 汉语 皇 ， 由 实 词 和 实 词性 词语 组 合成 的 任 柯 一 种 类 型 的 何 
法 绪 构 ， 其 组 成 成 分 本 身 可 以 由 该 类 型 拘 旬 法 结构 充任 ,而 无 他 
HETE, АЛАЛА ТОС ТА ДАУ КП ШЕЕ ҮЙ НЛ! 
яваа A ЖШ ЕНЕНЕ, Лх ЖЖ. TEAN. 
ЮЕ, ЖИЕ, МИДИЯ, KERRI MAH. ХАТ 
АЖ PU BJ SF J Br HE Т АО ОРЕ ЖИ S 2 hi F, 

1, ЕЙ 


Q Б РУР, CRAIE ERR E? КАЕ НЕ ДЕ»), ШҮҢ АТАШЫ 
社 ，1985 年 。 

@ Б, «Уа НАА» Сор Н) 1000%, 
第 2 期 。 
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一 个 


Ph ӨТЕГЕН: 
181 15 


Еж 1 


жщ F 


Е 


Жр ЖЩ ЕЕ. 

2 8 IE 25 ЕУ ИЧЕ Ж 

Ph 他 ЖИТ МОЛ 
Га 
GEIR]! 


ШЫ mO Ama OM 


Hne 
让 话语 


И | PPE _ 


i 
| 
| 


ж 


ужин [| PR 


Жї І -中 心 证 


L win. 


LEW, 


Ф _ __ 
中 心 证 


LEIL 
| 定语 


ЖНА + {ЕШ Ж. 


bL. Сш) Ж WAA gE JAAT 从 境 上 把 钉子 RE Е MT 


DARI ___________ фї _ 
АШ |l f 中 心 语 ___ 
{状语 | 忠心 说 


РА | ， 中 心 语 
| 状语 | ”中心 语 
DREI bR 
| 状语 Е 


Moh 8 4 183588 8 
З.Ш, 


ча. о 


й. 同意 拟订 一 个 公约 。 
1 述 语 上 | 宾语 | 
ЕИ Жїн | 
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HPA RALLIES. 
4. 述 补 结构 的 套 益 : 
El: 多 得 吃 +ú 
GEREJI m 
Ба Ж 
ЖЖ БС ЖИР. 
БУЧЕТ ПЧ ЖЕ: 
ТРА 8 ЖЕТЕН Е Ж PM PE, ЖДЁТ e 
ЖИН МГЕ ТН. ЛЕ US EE PSA PE, MRI 
请 与 后 一 项 调 词 性 闻 语 之 癌 在 请 以上 月 首 接 联系 。 
Как В НУР. 
и: Т E. AHK 
ЖИЙИ. Иля 1 
| 连 亩 前 项 || 连 请 后 项 ; 
Ep ERWE ENK 
BRAHE А: 
例 ， 请 你 жшк 来 一 下 
law ás Wii дт | 
йо | | ЗЕЦ 
Жтт $ W 3885 AK, 
ЕЕЕ 
B, RIER MN M К, кл, 
RRND) | RAF | 
| 联合 前 项 | :联合 后 项 | 
Жн RETEK 
Жа Эу R r ҤЕ Б E M Ч.И, 
是 汉语 说 法 的 特点 之 一 。 
语 次 的 名 子 是 无 穷 无 尽 的 ， 而 语法 规则 却 是 有 限 的 ， 人 们 之 
所 以 能 驶 和 异 助 于 有 限 的 诺 法 规则 ， 造 出 无 穷 匹 尽 的 句子 米 ， 其 原 
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HW TH ИЛЕ АЯН ШЕ. Б Н 
轨 性 在 汉语 中 的 表现 。 人 们 在 日 常生 活 中 使 用 和 理解 玖 和 名 学 的 范 
国 是 光良 的 ， 我 们 之 所 以 能 够 用 有 限 数 目的 规则 刻画 无 限 数 目的 
名 了 了 ， 正 是 由 请 言 符号 前 递归 性 所 使 然 。 

HAIEI MERRE E PERAH T € 
过 有 了 眼 的 规则 系统 ， 自 动 地 转 拨 为 昌 标 诸 言 中 无 限 数 月 的 句子 。 
如 果 机 器 翻译 规则 系统 不 充分 利用 谱 育 符号 的 递归 性 ， 要 实 更 这 
样 的 转换 显然 是 非常 困难 的 ， 英 至 是 不 可 能 的 。 
现代 数学 中 的 公理 化 方法 是 研究 递 妇 性 的 有 力 手 段 ， 因 此 ， 
语言 符 导 的 递归 性 使 得 语言 研究 与 数学 中 的 公理 化 方法 发 朱 了 联 
系 。 在 这 一 方面 ， 潜 国语 言 学 家 乔 姆 斯 其 的 生成 话 法 是 对 这 个 问 
题 竟 最 好 的 说 明 。 


第 2 节 ”生成 语法 移 公 理化 方法 


乔 姆 斯 基 是 当代 最 有 影响 的 语言 学 家 。1956 年 ， 他 在 研究 自 
然 语 译 的 工作 中 提出 了 形式 语言 理论 之 后 ， 又 先后 提出 了 转换 庄 
法 、 生 成 转换 语法 的 标准 理论 .生成 转换 司法 的 扩充 式 标准 理论 、 
管辖 和 约束 理论 等 。 他 的 语言 学 思想 就 象 长 江 大 河 一 样 ， 不 肠 流 
动 ， 不 断 前 逃 ， 永 远 也 不 会 停留 在 一 个 固定 的 点 上 。 目 苘 ， 语 言 
学 界 对 耶 他 前 转换 语法 最 及 后 来 提出 的 关于 转换 生成 语法 的 备 种 
理论 ， 还 有 不 同 的 看 法 ， 甚 至 还 有 不 同 的 和 争论。 但是， 他 的 形式 
语言 理论 却 成 了 当代 计算 机 科学 的 一 顽 重 要 的 基石 ， 已 经 是 人 们 
公认 的 科学 真理 了 。 

乔 姆 斯 基 指 出 ， 允 于 自然 语言 中 由 于 语言 符号 的 递归 性 而 形 
成 的 句法 缚 构 中 的 各 种 一 层 套 一 层 的 套 要 现象 ， 可 以 用 有 限 的 规 
则 来 如 以 描述 ， 从 而 根据 有 限 的 规则 汪 生 成 无 限 的 句子 。 
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Жш, Р E “that А” ЈЕЛЕ ЕЗ, И A 
来 描述 ; 
EXA AARET SAAT, RA that 从 和 句 ， 则 有 重 写 规 
ДР 
X-— S, S. > SR 
这 里 ,“ 一 > ”是 重 写 符 号 ,“ 人 ”是 赔 连 符 女 。 利 用 这 两 条 规 
m, BY ER SIB B ET a that MARAT. KARA AN 
WERA, ВИ “УШ”, 
ЗР, ВТА АНИ УТАР S E ВНЕ pi = 
EARE НЕ АЙ ӨЕ] Д З А0, 
文法 是 形式 语言 理论 的 一 个 重要 概念 ， 记 课文 法 ， 就 是 有 限 
个 规 巾 的 集合 ,这 些 规则 能 递归 地 生成 激 目 态 游 让 地 无 限 的 条子 。 
* 人 生成 ”是 痰 法 的 杰 心 ， 它 的 基础 是 数学 中 的 公理 化 方法 ;阐明 了 
生成 语法 的 公理 化 方法 ， 我 们 对 于 语言 符号 的 赣 时 性 ， 就 可 以 获 
每 更 加深 入 的 理解 。 这 于， 我 们 从 文法 入 手 ， 来 阐明 生成 语 活 的 
会 理化 方法 。 需 村 说 明 的 是 ， 这 早 所 说 的 区 法 ， 与 一 般 语 活 下 所 
说 的 请 法 不 是 一 码 束 。 它 人 有著 闫 秘 的 形式 定义 。 
形式 地 说 ， 尺 法 可 定义 为 一 个 四 元 组 CV，Vr，3S, P RB 
С= (Ук, Уу, 5, Р) 


= 
是 非 终极 符号 的 集合 ,这 些 符号 不 能 处 于 生成 的 终点 。 

куе МЕ УЕ р, ЗО РВЕ FE НИКОН, Vrij 

Vr 构 成 了 字母 帮 V，Ys 与 Y7 不 相交 ， 没 有 公共 元 素 ， 因 而 有 
V=Vyu Vr Vy :Vy= Z (GERERE) 
Ур By K 53 T SF л, Уг ШР J y Y НЕЁ 
т, ЯВЛЯВ К, fewa Т 学 母 表 中 排 在 
和 98. 
У 8446 E, таннан, 
4. КР НЫ, 其 一 般 形 式 为 


"0152 


-> 
这 里 ，Pp 是 V pRB, VEV RRRS R ERE, PAA, 
Bytte S = F НЛ, 

ERRAT 7 КЕ АУЕ, 352, 我 们 可 以 
ЭЛЛЕ RITE БУЛИШИ E H УЕ G tE k BJ ЕН 
L(G) 中 的 成 立 句 子 。 

HAERE- tp СА НБН 神 成 新 的 符 导 囊 hp itb, 
ТРЛН Е БИШ э фо САН Н ДЕЙН НЕ р), 
ВА ЕЕН ШЫ HASRA. ЭХ НИЕ ИЕШЕ 
Bip” 就 是 语言 工 (G7 КЛ hj T, 

例如 ， 在 英语 中 ， 有 如 下 的 文法 

G=(V.x, Vr, 5, P} 
V. = (NP, VP, Т, N. үу 
Vr= (the,man,boy,ball,saw,hit,took, =} 
5= 8 
Р, 
9 > АРТУР 
МР» T N 
УР.» V U NP 
Т -—> the 


N -—> man, bail, boy, * 
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V-— saw, hit, took, = 
利用 这 些 规 则 ， 可 以 从 初始 符号 S 开始 ， 生 成 英语 中 的 成 立 
ЕЕ ` 
the man took the ball 

the man saw the ball 

the man hit the ball 

the boy hit the ball 
the boy took the ball 
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the man took the boy 的 生成 过 程 可 写成 如 下 形式 (后面 洲 
明白 用 规则 前 导 码 ): 
S 
NPOVP 
TN VP 
TN VCNP 
the NV 人 NP 
the тал V SNP 
the man took NP 
the man took TON 
the man took the N 
the man took the ball 
这 样 号 出 来 的 生成 过 程 ， 吗 做 推导 喝 。 
当然 ， 这 里 的 文法 只 是 英语 文法 的 一 小 部 分， 生成 的 活 言 ， 
也 只 是 英语 的 一 小 部 分 。 
хі, ФЕН УРЕ 
G =(Ух, Ут, $, P) 
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F= {5} 

Vr= (a, b, c) 

S= S 

P, 
S— > aca @ 
S -> beb @) 
S— asa @ 
S— bSb @ 


ҖЫ Н ЛЕ ДИБИ Н b ЛЖ ИЕ bA, RAFN 
АТА. MAERT RETA, HEE 
的 符号 ce， 后 面 是 在 0 后 与 前 面 成 镜 象 关系 的 车 于 个 4 及 若干 个 5 的 
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КЕ, Врарсра, bbacabb, ababacababa, + Вав (а, b) 
上 的 任意 非 空 符号 出 ， 用 a" тоа, ЛОХАН ря) 
\2с0"}, 
ЯЕ АЕ AE EFEBabbaacaabta, WA, MSH W НЕ Fb rB Til 
T: 
s 
aSa 
abSba 
qbhbSbba 
abbaSabba 
abbaaecaabba 


显然 ， 由 这 个 文法 生成 的 语 育 的 符号 囊 的 数目 是 无 限 的 。 
下 面 定义 由 文 潜 G 生 成 的 语 育 LCG) ,为 此 党 引 入 表示 VY" 上 的 


符号 由 之 问 的 关系 的 符号 一 > 及 二 之。 
如 果 e->8 是 P 中 的 重 写 规则 ，9; 和 9 是 V" 上 的 任意 符号 申 ， 
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有 

Ф1@ф ==» ф1Вф;, 
BEN ELEGE, фар, ЕЗЕШ pp", MARB WE 
重 写 规则 &->B 于 符号 帅 p .ap,， 得 到 了 符 导 册 pip MA, 4 
应 用 某 信 单独 的 重 写 规则 从 第 -- 个 符 叶 囊 得 到 第 二 个 符号 串 的 时 
候 ， 一 全 表示 这 两 个 符号 昌之 间 的 直 搂 锥 导 关系 。 

BEC Gr Tas y Фу G JËEV* ERTSE, FA, а 
=> ts @; => t, 45-1220 那么 ， 就 写 为 ci —> em 
W “在 文法 G 中 ， 41 推 导出 e。”。 简 言 之 ， 如 果 应 用 P н 
干 个 重 写 规则 由 cz 得 到 8， 那 么 就 说 ， 对 于 这 两 个 符 导 串 ， 有 


а==>®В 


G 
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ачаж Т О МИНЕВ, 
这 样 ， 由 文法 G 生 成 的 语言 ZCC? 林 定义 如 下 ， 
L(G)= {wiw 在 V7 中 ， 并且 5 二 >w}。 


RERE РАИ У В А, Ууф, ЕВЗ», 
那么 ,符号 串 w 的 集合 就 是 由 文法 G 生 成 的 语言 ССЭ, HERA, 
Др ДРЕСУ, E ИУ ДЕ, 

LKR ЗЕТЕ УУ; 

2. AR s FB fb JA 310 r КЖЕ, 

аА R| ip ЕЖЕ» ПЕЕ ССр) = СС), M] 
文法 CGI 等 价 于 文法 Gu。 

前 面 所 定义 的 文法 G= Oy, Ут, S, Р), КЕПШ с» 
v, 2FH3 Ra 4, KEELDE HEREDAR. WE» 
ЗЕЛ ЯД ЖЕ hik F TRES ARA ES IR hj, АТАН) Е 
АКЕ Л) Л ЯН А ЖЖ НУ; 

REL ШЖ р, ЛА, FEA, б, P0, реф Aps, 
ф =Фф,оф:, 

PERTRA Фф], 那么 ,存在 4 ,91yg 50. реф. АФ, 
PSPP, ЖНА, 

限制 3; 50-0, ЯБА, FEA, Pis Ф, ©, а, О, 48 
P=P ÅP, Y= POP, А-0, Heo=a0QRo=0, Ы, A— 
т?з А-=®а„ 

hz о НЫ: ШЖ ИО EL EAT Ag. p I Op, X 
ТЕЙЛ ЫШТЕТ КЖФ >p HAHA, ЮЖ, ВНЕ М 
F. VRTI SERRE rb А ЕН О ЕЛГЕ АР 这 
+ y B Bia СВ HF A, WEA ЯФ Bison 
ЗНТУ ЛЕЛЕ, MA ИР] с> | Ф „НЕЛЕ Ое, Аф,-»ю|оФ, 
h, ОҢА ИК КФ,—Ф рЫ, И о ЧА A, 
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因此 ， 把 加 上 了 限制 1 的 实 法 叫做 十 下 文 有 关 文 法 (context--5ç 
nsitive grammav) НІ (type 1grammary, 
限制 2 性 求 文法 的 重 写 规则 爹 都 具有 形式 4-a 这 有 时 上 下 
文中 一 中 2 是 室 的 ， 在 适用 重 写 规 出 时 不 依 箱 于 半 个 的 非 终 航 符 
号 4 所 出 现 和 前 上 下 文 环境 。 因 此 ， 把 加 上 了 限制 2 的 文法 叫 敏 上 
FERAH (context-free grammar) 或 ?型 文法 (type 2 вга 
mmary 。 
ИЕ аЗ СВОЕ Е Е АЈ RAQRA, H 
H, АНОР, оло ПЕ, «ИЕБИ 状 
态 文法 (finite state grammar) Ыз 5 (type 3 grammar), 
ЯШ ТЕШЕ (regular grammar), 
设 有 上 述 限 制 的 文法 ， 叫 做 0 型 六 法 (type 0 grammar), 
显而易见 ， 每 一 个 有 了 上限 状态 文法 都 是 上 下 文 无 基 的 ;敬一 个 
上 上 上下文 泥 关 文 法 都 是 上 下 文 有 关 的 ， 每 一 个 上 下 文 有 关 文 法 都 是 
0 型 的 。 乔 姆 斯 基 把 由 0 型 立法 生成 的 语言 叫做 0 弄 语 言 (уре 0 
language)， 把 由 上 下 文 有 关 文 法 。 上 下 文 无 关 文 法 和 有限 状态 文 
法 生成 的 语言 分 别 虽 极 上 下 文 有 关 语 言 (context ssnsitive tang 
Suage》、 上 下 文 无 关 语言 Ceontaxt-free language) 和 有 限 状 态 语 
育 (finite state language), {ВГ B| IH 1540 y Рт (type 1 
language), 2909 (type 2 language) 和 3 型 语言 (type 3 
language), 
H T AF8 811288 03 ЕЕ 
条 件 是 逐渐 增加 的 ， 因 此 ， 不 论 
对 于 文法 或 对 主 诸 言 来 说， 都 存 
在 着 如 下 的 包含 关系 ， 
От 22907239) 
可 图 示 为 图 4,2,1。 
М, 6 = 
(Ул, Vr, 5, Р) В 4.2.7 AARNA 
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V. = (9, А, Б, С} 


Vr={a, b, c} 


S= {8} 

P. 
5 =AEC G 
А-хаА @ 
A—a @) 
B-> Bb @ 
В->Ъ @ 
BC —= Bee @ 
Gb-=ba D 


RAKETER E Bi b"arnco(n2>1, m=]. 

夏 准 看 出 ， 规 则 全 ab 一 56 是 0 型 期 则 ， 因 此 ， 这 个 文法 是 0 
型 文法。 如果 去 挤 规则 兮 那么， 就 得 到 - -个 1 列 文 法 ， 因 为 规则 
节 BC>Bcc 是 1 型 规划。 如 果 去 掉 规 则 合生 ， 就 得 到 一 个 2 型 文 
法 ， 因 为 观 则 全 5 一 ABC 和 规则 四 B = BENA MEAR 
则 号 、 图 、 四 、 辽 ， 就 得 到 一 个 ?型 文法 ,内 为 璋 下 的 现 册 人 @@A4~> 
аА, ЗСА аж B-> р ДЕ ЗЛ 

再 见 ， 任 何 的 3 型 文法 ， 一 定 包 含 在 2 型 、1 型 、0 型 文法 中 ， 
任何 的 2 型 文法 ， 一 定 和 包含 在 1 型 0 型 文法 中 ， 任 何 移 1 型 文法 ，-- 
定 包 含 在 0 型 文法 中 。 

了 述 四 种 类 型 的 玄 活 及 其 所 生成 的 语言 的 卓越 见解 ， 是 乔 姆 
斯 基 对 于 形式 雍 言 型 论 的 最 为 重要 的 贡献 ， 在 计算 机 科学 中 ， 人 
们 把 它 称 之 为 乔 姆 斯 基 和 谷类 {Cbomsky classification), 

乔 姆 斯 基 的 形式 诺言 理论 ， 对 于 计算 机 科学 有 重大 意 慷 。 乔 
姆 斯 基 把 他 的 四 种 类 型 前 文法 分 蓝 与 图 区 机 、 线 性 有 界 白 动机、 
后 进 先 出 自动 机 及 有 限 日 动 读 等 四 种 类 型 的 自动 机 联系 起 米 、 并 
证 明了 文法 的 生成 能 方 和 语言 月 动机 的 识别 能 力 的 等 价 性 的 四 个 
. 重要 结果 ， 即 * 
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1, 若 .一 语言 Z 能 为 图 灵机 识别 ， 则 它 就 能 由 0 型 文 法 生成 ， 
反之 亦 然 ; 

2, 河 一 语 育 能 为 线性 有 界 自动 机 识别 ， 则 它 就 能 由 I 型 (上 
下 文 有 关 ) 文 法 生成 ， 反 之 亦 然 ; 

3, 若 一 语言 工 甬 为 后 进 先 出 自动 机 识别 ， 出 它 就 能 由 2 型 (上 
下 文 无 关 ) KHER, RADR 

4. 若 一 语言 ! 能 为 有 限 自 动机 识别 ， 册 它 吉 能 由 3 昏 ( 右 限 状 
Ж) 文法 生成 ， 反 之 亦 然 。 

， 乔 姆 斯 其 的 上 述 绪论 ， 旬 供 了 关于 语言 生成 过 程 与 语言 识别 
过 程 的 极为 精 脱 的 见解 ， 这 对 于 计算 机 的 程序 语言 设计 、 算 法 分 
析 、 编 译 技术 、 图 象 识别 、 人 工 智能 等 领域 的 研究 ， 都 是 很 有 用 
处 的 ,因而 在 计算 机 界 产生 了 很 大 的 影响 ,特别 是 在 计算 机 科学 家 
们 发 现 ， 算 法 语言 ALGOL60 中 使 用 的 巴 库 斯 - 瑞 尔 范 式 BNF 恰 
好 与 乔 姆 斯 基 的 上 下 文 无 关 文法 CFG 等 价 之 后 ， 不 少 学 者 都 投入 
了 上 下 文 无 关 文 法 的 研究 ， 精 益 求情， 成 绩 斐 然 。 

在 语言 学 界 ， 常 常 把 上 下 文 无 基文 法 站 做 短语 结构 文法 ， 不 
少 学 者 都 注意 研究 短语 结构 文法 的 生成 能 力 ， 并 提出 了 有 效 的 方 
法 来 改进 它 ， 使 之 更 适合 于 自然 语言 的 描述 ， 而 且 ， 在 许多 机 器 
翻译 系统 中 都 采用 短语 结构 文法 作为 描写 自然 语言 的 基本 方法 。 

上 面 ， 我 们 说 明了 文法 的 基本 概念 ， 并 且 把 文法 定义 为 G = 
«Ух, Yr, S, P> 四 元 组 。 这 一 定义 是 午 成 语法 的 关键， 那么 ， 
文法 这 一 定义 在 数学 上 的 根据 是 什么 呢 ? 

我 们 认为 ， 文 法 这 一 定义 的 根据 是 数学 上 的 从 还 系统 理论 。 

象 初等 几何 学 这 样 的 公理 系统 是 怎样 建立 起 来 的 呢 ? 

首先 ， 它 要 有 一 系列 的 公理 ， 公 理 是 不 需要 说 明 的 大 家 公认 
的 最 而 易 见 的 真理 ， 以 这 些 公理 作为 建立 几何 学 系统 的 出 发 点 
其 次 ， 它 村 有 一 系列 的 接 导 规则 ， 以 重 从 公理 出 发 ， 一 步 一 步 地 
推导 出 各 种 定理 来 。 

йй, RITT DOK БЕЖЕШЕНД Z ABC р ЖЖЖ 180°, 
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如 图 4.2.2 所 示 。 
首先 ， 根据 “从 二 线 外 一 点 仅 能 作 一 条 直线 与 该 直线 平行 ” 

这 一 公理 ， 通 过 C 作 一 直线 CE 
STAB, 再 根据 回 位 角 相 等 人 
的 规则 ， 梧 知人 BCD= АВС, 7 
ЖЇН АЖЕ Ш, у А 
АСЕ = ВАС, 再 根据 等 < ий, 
а А ПОН DM, H 疼 1.3.2 ҖИЛ ЙЕ ЯП 140° 

ZECD+ ZACE+ZACB=180, . 
推出 

ДАВС + ZBAC + АСВ = 100°, 
从 而 证 明了 三 角形 4BC 各 内 第 之 和 为 180"。 


这 个 证 明 的 逻辑 结构 如 下 ， 
公理 。 ”从 直线 外 一 点 只 能 作 一 条 直线 与 该 直线 平行 。 
| (加 内 错 角 相等 ， 
Nf 

очай, 
定理 ， 。 三 角形 各 内 角 之 和 等 于 180*。 


可 以 看 出 ， 证 明 的 逻辑 结构 是 ， 从 公理 出 发 ， 运 用 若干 条 推 
理 孝 则 ， 最 后 得 出 定理 。 

我 们 是 不 是 也 可 以 采用 类 但 的 方法 来 齐 丁 语言 ， 有 从 而 从 形式 
上 来 描述 说 言 的 生成 过 程 叫 ? 

我 们 短 道 ， 从 本 质 上 上 说， 语言 是 一 个 无 限 党 。 如 果 我 们 取 语 
言 这 个 集合 的 某 个 真子 集合 ， 那 么 ， 这 个 真 子 集合 总 是 与 语言 这 
个 集合 等 价 。 例 如 ， 在 讲 某 一 语言 的 某 一 社会 集团 中 ， 我 们 歌 访 
社会 集团 某 一 成 员 所 讲 的 话 为 该 语 忆 的 嘉 所 集合， 显然 ， 这 个 成 
员 扬 讲 的 话 总 是 与 这 逢 语言 等 价 ， 也 就 是 说 , 讶 语言 这 个 集合 中 ， 
不 辐 大 小 的 集合 之 问 可 届 建 立 一 一 对 应 英 系 ，“ 部 分 小 于 全 体 ” 
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ХАЖ ВАЕ ЮНЫЕ, EARTE, WERT “S 
分 等 于 全 体 ”， 丙 这 正 是 无 淖 集 的 特征 。 加 此 ， 我 们 说 ， 诸 言 在 
本 质 上 是 一 个 无 限 集 。 

乔 旭 斯 基 对 这 个 问题 的 看 法 还 到 次 划 得 洛 ， 他 指出 ， 早 在 19 
+, РЕНА ШИГЕ? Р ЖЯ А ЖЕЕ НЬ Е ОУ, V, Hum- 
bold) 就 观察 到 “语言 是 有 限于 段 的 无 限 返 局 ", 但 是 ,由 于 当时 
尚 来 找到 能 揭示 这 种 理解 所 含 的 本 质 内 容 的 技术 工具 和 方法 ， 洪 
堡 德 的 论断 还 是 不 成 熟 的 。 那 么 ， 究 竟 应 恋 如 何 来 邓 解 诸 育 是 有 
ШЕШ Ж ЕШ? 乔 姆 斯 基 指 出 :“-- 个 人 的 语言 知识 是 以 某 
种 方式 体现 在 人 脑 这 个 有 限 的 和 机体 之 中 的 ， 因 此 语言 知识 就 是 一 
个 出 娄 种 规划 和 不 则 构成 的 有 限 系统 。 但 是 一 个 会 说 话 的 入 却 能 
讲 出 并 理解 他 从 来 未 昕 到 过 的 名 子 及 和 我们 所 听 到 的 不 十 分 相似 
的 句子。 而 且 ， 这 种 能 力 是 无 限 的 。 加 困 不 登 时间 和 注意 力 的 腿 
制 ， 那 么 由 一 个 人 所 获得 的 知识 系统 规定 了 特定 形式 、 结 构 利 意 
六 的 名 子 的 数 虽 也 将 是 无 限 的 。 不 难看 到 这 种 能 力 在 正常 的 人 类 
秒 活 中 得 到 自由 的 运用 。 我 们 在 日 常生 活 中 房 使 用 和 理解 的 句子 
范围 蚌 极 大 的 ， 无 论 就 其 实际 情况 而 诗 还 是 为 了 理论 上 描写 的 志 
要， 我 们 完全 有 理由 认为 人 们 使 用 和 理解 的 句子 范围 都 是 无 限 
ña "O 

那么 ， 怎 料 来 刻画 语言 这 个 无 限 集 的 成 分 组 成 情况 昵 ? 

我 们 可 电 把 诸 言 中 斯 有 的 元 列 成 一 个 琢 ， 进 行 简单 枚 举 。 例 
w, 

L={ġ, a, b, аа, ab, +=) 

这 样 的 刻画 办 法 ， 把 后 面 一 大 部 分 东西 省 赂 掉 了 ， 上 后面 来 询 
出 的 部 分 ， 只 好 出 我 们 根据 形 中 给 则 的 少量 的 元 去 想象 ， 这 样 的 
刻 甸 办 尘 显 然 是 不 好 的 。 它 不 能 体现 “有 限 手 段 的 无 限 运用 ”这 
一 原则 。 _ 

7 Ф N, Chomsky, FANAT, «НИИ ЛИ», рж, RÈ 
江 大 学 出 版 社 ，1982 年 。 
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H TIRAR УННАН. прн, MEA ART 
ЮЖ ЕМ” WEI i Ea. БА, ela Ж ЛЫН 32108 
语言 这 个 无 限 集 。 

我 们 来 研究 在 fa，b} 上 的 一 切 镇 蒙 符号 忠 的 集合 过。 一 个 镇 
象 符号 囊 可 分 为 左 半 和 和 右 半 两 部 分 ， 右 半 了 包含 的 符 导 序列 与 去 于 
世 含 的 符 导 序列 相同 而 顺 岩 相反 。 例 00, aaa, abba, babbab, 
bpaptabb 才 是 镜 象 符号 率 ， 但 pabp，aaak 丰 是 镑 象 符 导 由 。 昆 然 ， 
这 种 锁 象 符号 趾 的 集合 M 是 一 个 死 限 集 ， 我 们 四 下 面 的 递归 定义 
Ж АЕ. 

(iy aaE MA5bbEM;, 
(1) 190 CEEE М сахас МАВЫ М), 
GID ВАНО), пол, МЫ НТ 

Саз АДЕ S ЖЕЛЕ, НҢ, Уре ТИЕ aa Abb, 
x€ МУ И 

GDMW HR, E, TERRAS e, MRE 
МУҢ, BA, xR ДИ Жн ЕЕ РИ A RRAS B Ap 为 真 。 

DRR, НЕТ ЕП айо русе МВ 它 一 
切 情 况 。 如 果 没 有 这 个 限制 ， 递 归 定 义 就 可 以 措 述 满足 条 ВЕС) 
和 ii), 但 同时 还 可 能 包含 其 它 元 索 的 集合 。 

让 沪 注 意 的 是 ， 在 递归 定义 中 ， 基 底 是 必 不 可 少 的 ， 有 了 基 
底 ， 我 们 就 可 以 取 递 好 步骤 的 适当 前 替换 值 ， 采 用 数理 有 逻辑 中 的 
ЖОЖ ЯН Стойпз fenens), 推 出 这 个 赤 换 值 的 结果 ， 从 前 证 明 
革 个 符 导 囊 是 否 在 Xi 中 。 

数理 迎 辑 中 的 下 式 推理 法 其 推论 形式 如 下 ， 

p24 
p 


9 
这 种 推理 的 形式 无 疑 是 正确 欧 。 21 
ЖЕ, АСТУ Р RRRA НЭР, 3E3EDBPbaabb E М, 
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l.aa C MAbbEM HIR 


1 
2„Сух)у(хЄ M— (aza € M Abzb € МУ) Е р ps 
З,ааЄм 对 1 简化 
4.00E M— (аааа € M Abaab £ My 对 2 全 称 赋值 
5.aaaa E M A baab € M A3 АЕ А ЕШ 
6.baab М 对 5 简化 
7,baab E M-=(abaaba € М A bbaabbe M) 
раа ВА 18 КАКО 
8.abaaba € MA bbaabb E М 对 6.7 作 取 式 推 坦 
9.bbaabb € M 对 8 简化 


WERE MBP R REER- AARRE W 
得 不 到 证 明 。 | 

ЖАН Л, EARRA ARAE, ЖИГ 
УЛТАН К, ЖЫН ПОШ ЕЛ ЕНЕН UD 8 J: 8: A 
对 。 在 这 种 情况 下 ， 我 们 可 以 把 基底 看 成 是 原先 给 定 的 有 限 数 H 
芍 命题 ， 把 递归 比 又 看 成 是 一 套 特 定 的 有 限 数 月 的 规则 ， 也 就 是 
说 ， 采 用 递归 ， 我 们 可 以 从 原先 给 定 的 有 限 数 日 的 命题 出 发 ， 反 
复 运用 一 套 特 定 的 有 限 数 目前 规则 ,推导 出 无 良 数 日 的 外 加 命题 。 
这 就 是 “有 限 手 颖 的 无限 运用 ”。 可 见 ， 递 归 确 实 旦 刀 画 无 限 集 
芍 好 办 法 
为 了 应 用 递归 来 刻画 诺言 这 个 无 限 集 ， 我 们 提出 公理 系统 的 

一 个 公理 系统 是 一 个 有 了 序 三 元 组 CA，3，P)， 其 中 ， 

1, 和 是 符号 前 有 限 集 ， 韦 做 字母 者 ; 

2.5 是 4 上 的 符 寻 内 的 集合 ， 则 做 公理 ， 

3.P 是 在 A* 的 符号 审 上 的 位 关系 的 集合 As п> Рф [п 
元 组 至 少 必 须 是 有 序 对 )，P 的 元 叫做 生成 式 或 推理 规则 。 

由 此 ， 我 们 易于 看 出 ， 遂 时 定义 很 每 一 个 公理 系统 ， 其 中 ， 
基底 相当 村 公理 ， 递 归 步 骤 相 当 于 推理 规则 ， 弟 归 定 义 所 刻画 的 
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кей. ETIS ЬЕ ШРШ. ЖИА UKA А 
ЕЕ, 

MERMA, {р НАЕ K RED ЖШ. 

АЕ tpi S.A, 5, Р), Шу, Tri Ca) 
Ру ЕЛ, ЯРА, ВИ ЇЙ, ХО, ‚л, |) 
ТОҢ ау, ATTIEC, ш, o ж„_,, ху Шала, ш, 
wa ар 

МИТОВ СА, S, PATS Y, Уз, v, P,B92KEE 
ЕРИ К, АО УЕ ЖЕШЕШ, >= ВУ ИИ] p 46 — 
个 符号 申 或 者 是 公理 ,或 省 是 用 P 中 的 一 个 生成 式 从 该 序列 中 它 
前 面 的 一 个 或 多 个 符 导 囊 导 出 的 符号 册 。 如 时 在 给 定 的 公理 隶 统 
i, FERRA ER, WA rR RESE RAA E. 

PA, CDP {a,b} EARRA УҢ ОДИНА: APE E f 
W НАСА, S, P), 

А = {а, b; 
(25 ]s= tas, bb) 

P = {(х, DEA"xA|IY=ara Vy = brb} 
i, ЖЯ ЕШ ТИИ ЯУ В, 

{(ф, aa), (p, bE), (а, аап), (a, bab), (b, bbb), 
(аа, дапа), =} 

HHD, ЖА ИГЫ. 

{ф-=па, Ф +00, п-»оаа, афар, b--bbb, аа->папа, +.) 

在 公理 系统 (2) 中 ， 我 们 可 看 出 ， 钱 性 有 序 序 鹿 

bb, abba, апдфап 
З.ааБваа 1-Е, Ы РИНЕН А A E t W 
FEM Thi BJ S R H E ДЇ абба-> сарва н K, Wabbajk АБО 
本 成 式 88-*abba 推 出 的 ， 由 于 B85 是 公理 ， 记 以 ，a6bbaq 就 是 公理 
RAD 中 的 一 个 定理 。 

序列 
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bh, baab 

不 是 一 个 礁 导 ， 闭 为 pae5 不 是 从 bb P h HAEE o IH32JE 
不 总 球 着 foap 不 是 一 个 定理 ， 央 为 在 公理 系统 (2) 中 ， 可 以 存在 
一 个 推导 ， 使 得 paap 是 该 扒 导 的 最 后 一 行 。 这 个 推导 是 

оп, baab 
因此 ，2ea5 也 是 一 个 定理 。 

由 此 可 知 ， 排 导 的 第 一 行 必须 是 公理 ， 因 为 在 第 … 行 前 ， 没 
有 什么 能 够 推出 它 。 因 些 ， 下 面 的 序列 

ab, паба, baabab 

TERT, Bab E yn, 

一 个 推导 可 已 只 包 揪 一 行 ， 这 一 行 几 是 公理 。 

(2 中 生成 式 P 的 集合 是 所 有 形式 为 (х, ага) Ae, brb) 
的 一 切 有 序 对 的 无 限 集 。 其 中 ，z 是 变量 ， 它 的 信号 4* 中 所 有 的 
FE EE, PTRA (a, ава) 和 (ab, babb) 这 样 的 生 
成 式 ， 但 这 料 的 生成 式 ， 在 (2)》 HARRA, HALERE 
公理 出 发 来 推导 任何 的 定理 时 ， 实 际 上 是 从 来 不 使 用 的 。 另 外 ， 
由 于 2z 是 一 个 变量 符 导 ， 而 不 是 字母 才 4 中 的 一 全 元 ， 记 以 ，(z， 
аха) ЯП Ст, brb) 本 身 并 不 是 生成 式 , 而 是 生成 式 烙 式 或 构造 生 
.成 式 的 公式 。 生 成 式 格式 这 个 有 限 全 ， 刻 画 了 生成 式 的 无 限 集 ， 
ER, Pari НАЕДИНЕ, 

前 面 关 于 “三 角形 内 和 之 和 等 于 180?* ”的 球 个 证 明 交 逻辑 结构 
是 :从 公理 出 发 , 适 腹 潜 干 个 推理 规则 ,最 后 得 出 定理 。 这 样 的 逻辑 
结构 ,在 是 公理 系统 建 论 在 建立 初等 几何 学 的 公理 系统 中 的 体现 。 

我 们 还 可 以 把 公理 系 强 的 屿 义 扩 能 到 容许 字 坪 表 中 出 现 两 类 
字母 家 ， 一 类 岂 基 本 字 堪 家 ,一 类 沁 贺 助 字母 玫 ， 它 们 是 不 相交 
的 两 们 集合 。 两 类 字母 表 中 的 符号 都 可 以 出 现在 扒 昼 前 行 中 ， 但 
关 定 理 中 只 包 合 来 自 基 本 字母 表 中 的 符号 。 这 一 种 有 两 类 不 相交 
字母 者 的 公理 系 纱 ， 思 做 扩展 公理 系统 。 定 义 如 下 ， 

一 个 扩展 众 理 系统 是 一 个 有 序 四 元 组 СА, В, 5, Р), н, 
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Т.А F Bh k S By Е. 

2 ВАТА УМ BE, ALBA: 

3.5 是 (4 UBY* БНА В. MA, 可 出 公理 的 
ж#н Ж Ж ЖИ, 

LPEE AUB ШЙ ЕҢ ОН п ЗСА Я 0m2), m 
Ж Лйу НЕ И, РЭГ IL ЕДЕ НЕЕ Ж ПАН, ИПИ 
(шз, Шз, бб, ТШ], Tn 是 己 中 的 生成 式 ， 我 们 就 说 ， Er EM 
Bis Eyy y wo 中 导出 的 ,可 等 价 地 记 为 1 Ts- 1 -Yo 

在 扩展 公理 系统 中 ， 我 们 有 必要 把 推导 和 证 明 区 别 开 来 ， 因 
为 并 不 症 每 一 个 推导 部 是 以 定理 为 结尾 的 。 

给 定 一 个 扩展 公里 系统 (А, B, 5, Р), ЕН JF 
Йу, Pa се ОШ О F ES, Е ТРО — 
+R t НАЕ Я P hi ЕД КАЖНЕ pha 
符号 巴 前 面 的 一 个 或 多 个 符号 串 导 出 的 。 

给 定 一 个 扩展 公理 系统 (А, B, 5, Р), ФЕН 
BH, ШЖ. 

LEE (A, В, S, P) py Aim ЖН, 

2. H* 

щи — КИ, ИЙИ ЧОЙ ИУ ШЕН] „ 

我 们 可 以 看 出 ， 每 一 个 公理 系统 也 是 . - 4 Р Hs НА BF 
交 指 扩展 公开 系统 ， 但 并 非 每 -一 个 扩展 公理 系统 者 是 公 班 系统， 
带 和 非 零 信 辅助 字母 弄 的 扩展 公理 系统 是 一 个 真 扩展 公理 系统 。 

pil, EAA b LEURS S EHRT RARAN T: 


A={m} 
Í B= (a, 5) 
1 S= {т} 
(3) ! P: 

" @МВ——>аМарз 
| «МВ-——>@5МЬВ 
| «Мв——>епай 

аМмВ-—»абод 
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Тор, айпай CA UB" ЕЕ ИНӘ. 

ДЕЙМ, ама, ваМаа, аа»МбБаа&аа5Маар— МЕ, А 
不 是 扩展 公理 系统 (3) 的 -- 个 证 明 ， 因 为 cao0M5aa Ҷо H 
字母 表 中 的 符号 ， 它 还 不 是 定理 。 

序列 时，aWMe，aaMac，aappac 电 扩展 公理 系统 (3 的 一 个 证 
BH, 

如 果 两 个 系统 具有 同样 的 证 明 的 集合 ， 风 这 两 个 系统 等 价 。 
O 中 的 扩 和 民 合 理 系 统 与 (2 中 的 公理 系统 是 等 价 的 。 

ШЕГИ, (Are Thue) HP RAMRAM EE 
限制 ， 提 出 了 半 图 应 系统 ， 定 义 如 下 ， 

如 时 扩展 公理 系统 СА, B, S, P 》 中 的 每 个 生成 式 格 式 邦 
ERME, ЖЕЛБА 

атВ-»008, 
ЛАШ ОАЕ КИ, Дир, зу AUB 
ЕКВ, HERE, ENE AUD LETERA H 

在 半 图 尼 系 统 中 ， 使 用 任何 生成 式 所 和 吐 成 的 变化 ， 只 限于 用 
一 个 周 定 的 符号 串 来 替换 另 一 个 固定 扔 符 导 串 。 显 而 易 见 ，(2 
WO 两 个 系统 都 是 半 图 尼 款 统 , 它 们 中 的 生成 式 全 都 是 双 项 的 。 

由 于 半 哮 尼 系 统 中 的 一 切 生 成 式 都 是 双 项 的 ， 所 以 ， 我 们 可 
以 把 推导 的 定义 限制 得 更 宏一 些 。 

给 定 一 个 半 图 厄 系 统 (А, В, 5, Р), и, Mar э 
im 的 线性 有 序 序列 叫做 wy 的 一 个 推导 ， 当 且 仅 当 

1. 扩 是 一 个 公理 ; 
iB, | 
2.9, НАРО B Ag E V.E P R ВИЕ 
举 合用 P 中 的 一 个 生成 式 导出 的 。 

半 图 尼 系 统 中 ， 定 理 与 证 明 的 含义 与 扩展 公理 系统 中 的 信义 
相同 。 

例如， 有 如 下 的 半 图 厄 系统 СА, В, 5, Р), Ж, 
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A= 06, D, E, T, G, H) 


B- (a) 

Ss= {HFGa! 

P, 
FG-= DC'aa 个 
FD -DF @ 
HI +. HC Сз) 
CD->FC а) 
СС-»ЕРСа (5) 
НЕ-Е @ 
EF- -E © 
EG =E ® 
Баа @ 

glen ШАТ S haaa ит, 

НЕСа ^Ш 
HDGRaaa @ 
НСсСааа @ 
НРЕСааайа (5) 
ЕРСпаааа ЮЭ! 
ЕСавай D 
Eaaqa ® 
aaaaa (9; 


乔 姆 斯 共 把 文法 定义 为 四 元 组 @= (Vi, Үт, 5, Р), БЁН 
ERARE ОЦ, ЗОТ ЈУ Ут, 分 名 相 尖 于 半 图 忆 
系统 中 的 输 助 字母 表 和 基本 字 芯 囊 ， 文 法 中 的 重 与 规 风 P， 相 当 
于 半 图 厄 系 统 中 的 生成 式 ， 文 法 中 的 初 奴 符 号 5, 相 当 于 半 图 厄 系 
统 中 的 公理 ， 由 文法 推导 出 的 终极 符号 帅 ， 相 当 于 半 图 厄 系 统 中 
前 定理 。 在 这 个 意义 上 ， 可 以 说 ， 形 式 文法 在 实际 上 万 是 一 个 从 
时 系 统 。 乔 姆 斯 基 的 文法 理论 ， 不 过 是 数学 中 的 公理 系统 理论 在 
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B ЖИЛ I PROMAT. VIBE H ЗСК ЛЖ Pt KI 
始 符 号 $ 出 发 推 加 的 无 限定 理 的 集合 。 文 法 的 规则 是 有 限 的 ， 终 极 
符号 和 非 终极 答 导 的 数目 也 是 有 限 的 ， 可 是 ， 由 于 语言 符号 具有 
递归 性 ， 文 法 这 一 公理 系统 就 能 够 根据 有 限 的 符号 ， 通 过 有 限 的 
重 写 规划 ， 递 轨 地 推导 出 无 限 的 语言 来 ,采用 这 样 的 公理 化 方法 ， 
利 崩 语言 符号 的 北 归 性 , 乔 姓 斯 燕 出 色 地 实现 了 湛 保 德 提出 的 “有 
ВЕР EEUU SS HU R- 

由于 语言 的 生成 过 程 再 通过 公理 系统 这 一 形式 化 的 手段 得 到 
严格 的 撕 述 ， 所 以 ， 乔 姆 斯 基 的 形式 语言 理论 ， 在 计算 机 程序 庄 
言 的 设计 中 ， 在 自然 语 育 信息 你 理 的 研究 中 《如 机 器 翻译 ， 人 机 
对 话 ), 得 到 了 广泛 的 坏 用 ， 并 且 取 得 了 令 人 满意 的 效果 。 

然而 ， 我 们 知道 ,任何 公理 系统 都 是 一 个 封闭 的 自足 的 系统 ， 
作为 公理 系统 的 文法 ， 基 至 象 上 下 文 无 关 文 法 这 样 比较 适 于 并 与 
所 然 语言 的 文法 ， 它 的 描写 界限 ,也 人 名 只 能 局 限于 一 个 知 子 之 内 ， 
只 能 说 明 一 个 多 于 本 身 的 生成 过 程 , 它 在 公理 系统 内 是 自 灶 闭 的 。 
由 于 公理 系统 的 这 种 自封 并 性 质 ， 合 得 被 上 下 文 元 关 文 法 所 描写 
的 一 个 句子 ， 不 可 能 与 其 它 的 句子 发 生 联 系 。 

Ham. WEF ZREN- RATRE ET 
WEAK QF AT ip, GAMERITE ARRATE 
换 来 的 ， 由 于 来 由 不 同 的 句子 ， 它 才 会 得 到 不 同 的 语 闵 解释 ， 如 
果 这 个 句子 是 从 “ 张 三 借 给 李 外 一 本 书 ” 转 换 来 的 。 它 可 以 得 到 
一 种 语义 解释 , 即 ， 张 三 的 书 瞧 给 了 李 四 ; 如 果 这 个 甸子 是 从 “ 李 
四 人 给 张 三 一 证 书 ” 转 斤 玉 的 , 它 叉 可 以 得 到 另 一 种 不 同 的 解释 ， 
Вр, ЧИИ ТОЕ, ЗТ АЧАА, АЛ RER 
四 一 本 书 ”这 个 外 子 本 身 是 解释 不 清楚 的 。 因 为 作为 公理 系统 的 
文法 是 自封 闭 的 ， 它 解决 不 了 一 个 句子 与 其 它 句 子 的 关系 问题 ， 
这 正 是 作为 公理 系统 的 文法 前 局限 狂 ， 要 解 欣 这 个 问题 ， 应 该 跳 
出 公理 系统 前 栓 染 ， 到 公 丈 系统 之 外 去 研究 句子 与 句子 之 间 的 半 
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ЗАА ЖЕ Н ТИКЕ ИКЕ, ALS Y BAIE RE 
缚 ， 从 而 在 更 为 广泛 的 庄 言 平面 上 ,对 自然 语言 进行 描述 和 解释 ， 
所 以 ， 转 换 语 法 是 对 生成 详 法 公理 化 方法 的 挑战 。 
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语言 符号 的 层次 性 与 图 论 


索 绕 尔 认 为 语言 符号 具有 线条 性 ， 它 是 只 在 时 间 上 展开 的 ， 
因而 体现 为 一 个 长 度 ， 而 这 长 度 只 能 在 一 个 向 讶 上 测定 ， 它 是 一 
条 直线 。 我 们 在 “ 绪 言 ”中 马 经 沸 出 ， 索 绕 尔 的 这 个 论断 受 到 了 
语言 学 新 的 研究 成 果 的 严重 挑 威 ， 英 国语 言 学 家 莫 斯 的 “器 普 跨 
论 ” 就 证 明了 了， 语言 符 号 并 不 是 线条 性 的 东西 ， 而 是 立 体 性 的 东 
T. | 

ЖИИ ТЕНЬ” АУЗУ I., ДОЮ, ERUH 
THH, BEES AI Н. asik, ЕРЕ АО BEI 
立体 性 ， 就 是 其 有 分 层 结 袍 ， 也 就 是 层次 性 。 

语言 答 号 的 层次 性 ， 在 旬 子 结构 方面 表现 得 特别 明显 。 

美国 描写 语言 学 派 的 语言 尝 家 们 早 就 指出 ， 英语 的 “ The 
old men and women stayed at home” 【年 若 的 男人 和 女人 留 
ARED KAREA У П И Ава Д, 
很 可 能 有 的 听话 人 会 认为 它 的 意思 是 “年 老 的 男人 和 所 有 的 女人 
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(不 论 年 龄 天 小 ) 留 在 家 里 ", 另 ~- 些 听话 人 会 认为 它 的 党 思 是 “所 
有 年 老 的 男人 和 所 有 年 老 的 女人 贸 在 家 里 ， 还 有 的 昕 话 人 T 
不 能 作出 央 定 ， 这 与 看 图 人 看 到 一 个 中 空前 立方 体 图 形 导 的 悄 形 
Н. Е АЗГЕ bI AKA., AA ВО НЕ 
НАЕЛ Нг, MELES FA BI1ER SOS Н G. Е, 
Ж K ГЕНА, B. САЈТ, ROS 53 H BIR ATICH 
不 同 ， 但 是 ， 他 会 感到 了 有 附 更 象 4， 有 有 时 交 更 每 C. <i, В 
Ж ЕАУ, WEH, BEHARR. 1Ш 5.1.15 „ 


5.1.1 BHLO AX AC 


事实 上 ，“old men and women” 这 个 名 词 短语 根据 意义 的 
不 癌 有 两 种 不 同 的 层次 结构 ， 如 果 注 意 到 层次 的 不 同 ， 那 么 ， 这 
种 意义 上 上 模 楼 两 可 的 情况 就 本 以 得 到 解释 。 

一 种 层次 结构 是 


old men and women 
l i i | 


В, АШЕНОВ АЯПТА КОД”, 
男 一 称 层 次 结构 是 


oid men and women 
tU 1 ! 


这 时 ， 这 个 名 词 短 语 的 意义 是 ，“ 所 有 年 老 的 男人 和 所 有 年 老 的 
KA”, 

一 般 地 说 ， 如 果 权 浏 断 两 个 语言 片 殿 和 = аа, a B= bib, 
РЛ ВНТ. АЗЕ В. 
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1.4 和 B 中 对 应 的 词 形 相同 ， 词 数 相同 。 即 有 01 =b а, = 
b., - G= bns Нп=т„ 

2.АЖВҢ Ву ЕАН А). EB, Wq aí 0, +з, Gai Kins 
Ws MAb bas сз ba-1 6.5 Жр, E” Жок “前 于 关 
Ж. 

3.4 和 3 中 各 个 词 之 间 的 层次 结构 相同 。 

索 绪 尔 主张 语 育 竺 导 的 线条 人 性， 只 看 到 了 第 1 条 和 第 2 条 ， 而 
没有 看 到 第 3 条 ， 这 是 他 的 局 限 性 ， 今 天 ， 我 们 看 到 了 第 3 笨 ， 发 
现 了 语言 符号 的 层次 性 ， 应 该 说 是 一 个 很 大 的 进步 。 

汉语 有 一 个 笑语 也 十 分 生动 但 说 明了 语言 符号 的 层次 性 。 客 
人 希望 留宿 ， 先 写 下 六 个 字 ,“ 下 雨天 , 留 客 天 ”。 主 人 浅 上 由 个 学 ! 
Ж-ТА, BR -REKA T АК ЖЩ, А 
ЖИ" АХ А PKH IK, ЖТ ЭРИНЕН.“ ТШ 
х, HER, ШАЛТ 留 "。 同 拌 十 个 语 索 ， 同 样 的 排列 顺序 ， 只 
是 层次 组 台 不 同 ， 意 思 就 完全 两 祥 。 

算命 先生 给 大 判断 ЕХЕ АТС" a T EAER E DTT АКЕ, 
“Уж, PRC ҖАЕ БЕЛДЕ; “МЕЙ, T”, ОЛА 
ЖЛЕ, MERTER FPCIRR098EFUMDUE, РЕЧКА КЇН, 
ЖАЛАН Е, А» Л ЕЛ Y ЖОЛ ЭР ШИШИ ЛЕТ. 

ЕЛА р ИЛЕТ pot АЛАК, УЗР SEED YS W 
№. Ж. ХЁН TEKI S A= E y ASI. ТЕШ 
是 普遍 存在 的 。 我 国 著名 语言 学 家 朱德 局 先生 时 在 1962 年 发 йо 
《 论 甸 法 结构 ?一 文中 中 ,就 指出 了 因 层 次 组 合 不 同 而 产生 的 歧义 ， 
但 举 的 例子 是 “ 耽 死 了 猎人 的 狗 * ,可 以 方 两 种 解释 ， 一 种 是 ， 
“ 咬 死 了 猎人 的 狗 ” 意思 是 猎人 的 狗 被 胶 死 了 ; 一 -种 是 ， “жт 
BA, Г ЛВ АЕТ, 在 句法 结构 .上 ， EREE 
алтат, 前 者 是 述 宾 结构 ， 后 者 是 偏 正 结构 。 


Okt m, ЫШ Еу», ОНИН»), 196745, 8—9H. 
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我 们 还 可 以 在 汉语 药 日 党 语 雪 中 找 出 许多 这 种 因 层 次 组 台 不 
局 而 造成 忠义 的 例子 。 

BJ. * жм гм. н, 

一 种 层次 结构 ЖУ ТАНИНА”, 
д-У, 

ЕЕЕ ЖЕ ГАСЛА ЯГ, 


жалаа. — 
#12. “热爱 人 民 的 总 理 ” 
一 种 层次 结构 是 ,“ 熟 爱人 民 的 总理”, 这 站- 个 述 突 结构 ， 


一 种 屋 次 结构 是 :* 共 爱人 民 的 总 再" 这 是 一 个 偏 正 结 析 。 


Ms FRARI 
СЕКИРА, E A ЯЗ ВОЛЕ", АРИУ 
ы 2121 


一 种 层次 结构 是 :哥哥 和 弟弟 的 用 友 ”， 这 是 一 个 偏 正 结 构 。 


#4. “两 来 的 小 朋友 铁 关 和 小 黑 ” 

一 种 层次 结构 是 :， 坪 来 的 小 明 廊 铁 头 和 小 黑 ” 这 是 一 个 同位 
结构 。 

一 部 层次 铺 鬼 是 :两 来 的 小 朋友 铁 头 和 小 时 ”这 是 一 个 联合 
н. 012 

这 些 例子 说 明了 ， 在 日 常 语 言 的 线性 符 导 序列 的 内 部 ， 还 隐 
ж ЕЕ ЫКЫ. атава, 层次 结构 
不 十 分 复杂 。 机 我 们 使 用 的 句子 一 般 都 不 会 这 样 简单 ， 有 的 句子 
的 层次 可 以 分 为 若干 层 ， 这 时 ， 就 要 用 树 形 图 Gre graph) 才 能 
把 这 种 谋 次 清楚 地 表示 出 来 了 。 

例如 ， 英 语 中 They are flying planes 这 个 句子 有 两 个 不 同 
揭 意 思 ， 这 两 个 不 同 前 意思 最 由 于 这 个 句子 的 线性 序列 的 表层 之 
F. BAA03208 ИКА BPP ES ИЕ R a 
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当 黄 总 黑 为 “它们 是 正在 飞 的 飞机 ”时 ， 其 树 形 图 为 5.] .2。 

5.1.29, БЖЖ ЈР, NPER ФИЈАТ, VERR АЛГ 
说 ，Y 玫 求 训 位 动词 ，Ving 表 示 间 尾 为 -img 的 动词 ,N 表 未 各 词 。 
这 时 ，flying 是 planes 前 定语 ,fy ing planes 构 成 一 个 名 词 词组 ， 
aTe 是 系 词 。 


/N A 


YP 
they ы И Р N, 
/ \ | are /\ 
Ving Planes ving 
flying Planes 
arc flying 
85.1.2 ЕЕ 5.1.3 HEA 


当 其 意 恩 是“ 他们 正在 驾 蚤 飞机 ”时 ， 其 符 形 图 为 5 .1 .3。 

其 中 ，are 和 tlying 构 成 动词 的 现在 进行 时 ，planes 作 动 启 的 
直接 宾语 。 

任何 一 个 甸子 的 线性 序列 的 表层 之 下 ， 都 隐 疆 着 一 个 层次 分 
明 的 畦 形 图 。 当 一 个 句子 的 线性 序列 之 下 隐藏 着 两 个 或 两 个 以 上 
的 树 形 图 时 。 这 个 句子 就 会 产生 歧义 ， 就 会 得 到 不 同 的 解释 。 

我 们 前 面 雇 举 的 那些 因 层 次 不 同 而 造成 歧义 的 那些 简单 的 村 
杆 ， 耻 是 会 有 这 样 的 树 形 图 的 。 Jim, WE “old men ald wo- 
men” 这 个 睹 尺 的 和 名词 短语 ， 所 隐藏 的 两 个 不 同 的 树 形 图 如 下 ， 

当 其 辣 思 是 “年 老 的 男人 和 所 有 的 女人 ”时 其 宰 形 图 为 5. 1.4. 

当 其 意思 是 “年 涛 的 男人 和 年 老 的 女人 ”时 ， 其 至 形 图 为 
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5.1.5. 
TERS. 1.5.1.5, Арл СОМ, 
HER ету ТТВ, 


А. “у 
/\ A КОЛА 


А1)! N L N men li N 
| and women 
Old men ang women 
15.1.4 ЮЕ 5.1.5 树 形 图 


由 此 人 厂 匈 ， 权 形 图 是 表示 语言 符号 的 屋 次 性 的 一 种 很 直观 的 
形式 ， 它 条 以 把 语言 埋 句 法 绪 构 上 的 层次 差异 揭示 无 余 。 


第 2 节 树 形 图 


树 形 图 是 不 包含 回路 的 连通 图 。 由 于 树 形 图 可 以 直观 地 描述 
证 言 的 层次 结构 ， 记 以 ,语言 研究 便 与 数学 中 的 图 论 发 生 了 联系 

从 直观 上 说 来 ， 树 形 图 可 以 天 示 关 于 句子 的 名 法 结构 的 三 个 
方面 的 信息 ， 

1 句子 中 条 成 分 的 语法 类 型 

ЖЕШ ОГУЛ ГОСТ 

3. 句 子 各 成 分 的 层次 。 

例如 ， 在 贸 5.2,1 所 示 的 树 形 图 中 ，PRO 表 未 代词 ，NUM 表 
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TERIN, CARN SESI, ОТЕ А, МЕА а 
СУЭК o 
从 图 5.2,1 中 可 以 看 出 , “我” ` 
эй, “БЕКЕ” ЖАЗИ, "Ж ШИ” 
动词 ,“ 一 ”是 基数 词 , “只 * 是 量词 。 хе че 
“ 猫 "是 名 词 ， 句 中 各 成 分 的 语法 /N N 
类 型 是 很 清楚 的 。 从 图 中 还 可 看 ,和 МО у р 
党 ， 在 句子 这 个 成 分 中 ， 名 词 短 | | N 
З ЯА Eaa, 


ЕГА wie RA XUM N 


Аар KEREDE aB ЖЕЙН ЭВ / N | 
的 .图 中 还 可 看 由 ， 标 有 $ 的 最 大 cat QTF 
成 分 由 NP 和 VP 两 个 成 分 组 成， | 


Ja NP X HPROGIN#RINI, YP H V д 
和 和 NP 组 成 ， 后 一 个 NP 叉 由 NUM 
种 NN 组成，NOM 由 CAR 和 QIF 继 图 5.2.1 ЖЖ 
成 ， 知 子 中 各 成 分 的 层次 组 合 关 系 也 是 很 清楚 的 。 

树 形 图 本 身 由 结 Lnode) 和 连接 结 的 校 (branch) 组 成 。 得 一 个 
结 有 一 个 标记 (label)， 这 个 标记 是 从 语法 范畴 (如 8，NP，YP， 
№, М, ADARE ВЛОШ. ИИ, ADEA RRES 
FEE 0038 ЕРЕ ИЕ ЕС E EB Es ÁI, $i 
Ж S 的 结 在 项 人， 标 和 符号 圳 元 素 的 结 在 底 处 ， 在 料 的 竖 直 方向 
上 ， 枝 总 是 从 较 高 的 缚 向 较 怀 的 结 延 促 。 

如 果枝 用 箭头 而 不 是 用 钱 访 画册 ， 那 么 ， 结 与 结 之 问 的 焊 对 
的 轻 直 位置 就 成 了 桂 形 图 的 无 奖 特 征 ， 例 如 , 画 5.2.2 中 的 四 个 图 
形 表示 的 是 同 -- 个 媒 形 图 。 

XART, ВАА, НЕН RN NE AHE 
ЖУН 6. 

树 形 图 中 各 个 绪 点 之 间 ， 有 两 种 关系 信 得 注意 ,一 种 是 支配 
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关系 ，~… 种 是 前 于 关系 。 


Р5.2.2 HMR EIR 

E Р НЕ А E E EE С Е ТЕЗДЕ К, 
m B ЛАО ЖАТ 88] Ji WA RERA АЕ EE 
y， 记 为 D(z，5)。 例 如 ， 在 图 5.2,1 的 树 形 图 中 ， 灶 有 FP 的 结 支 
配 标 有 有 CAR 的 结 ， 因 力 连 接 结 VP 与 结 C.4R 的 枝 都 一 律 从 比较 高 
КИ УР, ЖО ШУР МОМ, ЙЕ НЕ ЕТЕСАК. H 
是 ， 标 有 VP 的 续 不 支配 标 有 “我 ”的 绩 , 因 为 连接 这 两 个 结 的 枝 
首先 要 从 结 VYP 开 到 结 5, 再 从 绪 5 通 过 结 NP РКО”, 
当 7r 支 配 y 肘 ，y 就 叫做 x 的 后 裔 (descendant)。 

УУНА, а Ч, Н, суи Н 
ARRES, ЖА, ЖИЙ, «ЕЗЕНШ, ТЕ 5.2.1 h РА 
h, НУРААВ УТУ А, ДАКС УТСАА 
ён „ЛЕ АПАН, АНИНЕ ЕРЕ Д.Д ЖЕ 
ЗЕ АТАН ЗЕ АН, ШШ иб. [Щ5.2.1Р, БУРЕ 
ТЮЛ LES И, ШИ AV ñE LH РЈ, V MNP:ix 
HAREL. WE ЖЖ ШИЕ sss ЫИ, ШИН, 
图 5.2.1 中 ， 标 有 S 的 结 就 是 根 。 被 其 它 结 支配 而 不 支 本 任何 其 它 
结 的 结 ， 叫 做 时 ， 图 5.2.1 中 ， 标 有 终极 标记 的 结 " 我 "妹妹 ”、 
“车 见 "”、… 等 筹 都 是 叶 。 К, ЕСА ГКО K, M 
М, 根 总 是 在 顶部 ， 叶 总 是 在 座 部 。 

对 于 得 一 个 合 烙 的 树 形 图 ， 应 满足 单 根 策 件 ， 在 每 个 酝 邢 
蔷 中 ， 答 好 只 有 一 个 半 是 支配 每 一 个 绪 的 ， 这 个 结 就 是 极 。 

这 个 条件 可 写 为 ， 

CITEN HEN) (т, VED 
+ 178.: 


Joh, МАЛТА, (z, РЄ Рту, 

ЖЕЕ АА, ИЕ НЕ ЖШ ЖАНИ Ж, 
АВЕ М Н By ЕЕЕ. ЭЖ, WW t ЇЙЇ, ЗЛЕТУ 
于 关系 左边 的 结 前 于 右边 的 结 。 在 图 5.2.1 中 ， 标 有 “我 ”的 结 前 
于 标 有 WYP 的 结 以 及 所 有 被 YP 支配 的 结 ， 因 为 结 YP 与 结 “我 ”之 
间 不 存在 支配 关系 。 但 是 ， 标 有 “我 ”的 结 不 能 前 于 支配 它 的 结 
NP 和 结 本 ， 了 可见， 支配 关系 同 从 左 到 右 的 前 于 关系 是 相互 菲 乓 
的 。 

给 定 一 个 树 形 图 ， 所 有 使 得 ?前 于 y 的 有 序 对 (xz,，y)， 构 成 了 了 
这 个 树 形 图 的 一 个 前 于 关系 ， 记 为 PCz， 扫 )。 

为 了 保证 前 于 关系 和 支配 关系 没有 共同 的 月 序 对 ， 猎 形 疼 应 
ИЙАШ ЕНЕ. ЕЕ. 

ФЕ ЕА Н, ЖОКЕ DSP лы, xz 与 4 处 于 前 于 关 
AP, у), BRKI, DEP, 00, DEP, щи 4r- 
8 不 处 于 支配 关系 中 ， 即 (z，g EDHE, DED, 

Вая, иж Ер, 

Сүз, YENC, ШУ € PV (g, DEPE, у) EDA 
(у, £) EDI} 

М-ГЕ {Н т,(х, z)€ D, БШ! ,(т, х) P. 

Bəh EAER P, ERIRE pii АЕ 

ІМЕНА ТЕА EREA A ЖАЫ, $— 
个 结 最 多 只 有 一 个 间接 支配 它 的 结 。 AN 


Z/N 4 
Мм М 


5.2.3 ЖЖЖ a5. 2.4 РЕ 


FEDS.2.3. ti, gdh БЕТ PLE ЖИЫ Abc, [R.A 
Б ЛУЕЖ ГЫ. 

2.8 s АУЛ УРАН 2 32 ТҮР, 

在 图 5.2.< 中 ， 连 接 5 和 4 的 枝 与 连接 c 和 e 的 枝 交 及 了 ， 因 此 ， 
这 个 图 也 不 芷 柑 形 丙 

为 了 排除 这 机 种 病态 站 大， АНТЕ ЖЕР: 

ТЕНИНЕ ЕР. Р ИР НЫ, РР, ШШ 
FARRE RATT Шу ЗЕ ЁТЕ ЕТ dy BDP, | 

Жан, ЗЕ ЖЇР A 

Суз, =, y, ZENY ICW, х) ЄР бе, DEDA (z, 2) 
EDI=> (V, ЄР} | 

ТЕЁ 5.2.5, ИРИ Ге, БЕ А, сша, В, dw 
ита, ERETTA R ИП ТАШ З А 85.2.4 
H, ЫТ, Ба, сэт е, зка Е, dy iy Ре, 
18390 Fj Hi, MA, З ЭКЕК, 

#E5.,2,1rh, А-О АУ Вто, 8 IH Ela И 
工 浴 表 示 针 与 标记 之 问 的 配对 情况 .这 个 标记 函数 的 定 尽 域 是 树 形 
АНА WA. ЛОН ЕТ В НОА Н А з ДУК 
А. 

ИВЗ, МР, УР, за S ПЕТ. CUNE 
Ж#Н ЫЛ НЕ ЕК A Sas ЖИА И АО А Д1], Ж 
ERA, Mib ЖП ЫШ. L ЖШ. L а 
ЇЧ ЛА АИ УУ ЧЕ Р, ДЕНО АДОЛАТИ С, ЭЁ 
B, СІЈР Л АЈ, 

ЕШ ЛР Е И] АО 326 RD АУЕ, RI B346 8] 
BE VENUE, 

PEATE -AEJ HTH R: 

T=(N, 0, D, P, L) 
HP, М-Я, ERIRE 
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一 个 有 有 限 集 ， 即 标记 的 集 介 3 
PERNA N 上 的 支配 关系 ; 
P 是 在 NXN 上 的 前 于 关系 ， 
ГАМ ОВ, ВТО 

35-0708, FHARR: 

1.<3 26 NC € N)Gz, VED, MYRA 

2.Сүт, SENHE, уу P. (p, z) € Pyar (туу р 

AG DEDI, MERET 
IOS Wy т, Y, ZENY Cw, DEPA (У, DEDA Cr, 2) 
Є рїш (у, DEP} Ma rAth 

TREE HRES h, HATNET ААА, 只 有 9 中 的 一 
TERZ, B, LEAR p RM. 

ти, {ЖЕЛИШ А Ащы] Ж ИРДЕ ЖИЫ ЕЛИН А АЈ 
Ha ЈР. АЖ, 

LET: 

АЕ TREET =N, О, D, P, 1), RAJATA 
Е КЕК 

D жер; 

© (u, DED 

Ф W, EL; 

© (I wWENKCw, 5) СЕЛДЕ ЛС, м) ED 

Aw, а) ЄВ) 

ЖА АДО. CHH, ХТА Т иа NS, Н 
Вт, СЛАТКЕ ИЧЕК Рули р АК: OH 
除了 zx 结 属 于 自身 的 情况 。 

结 * 属 于 y， 记 为 (rx，Jy) EE。 

这 种 情况， 从 图 5.2.5 的 业 形 图 中 可 以 看 出 来 。 

结 点 “西山 "六 于 带 轿 的 绪 点 5S， 因为 这 个 带 闭 的 S 愉 支配 “ 西 
出 ”二 与 “西山 ” 离 得 最近 的 9." 西 山 * 不 局 于 模 S， 因为 在 根 5 与 
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ш" жй, Л ss p Н 52 hi, 
ТОКА ДЕН ЫШ ААЛ SJ rh Wp Rh АУЕ НП ПЕЛ 


крт, 
人 人 2 ` 
|| 了 
f а: ИП N єр 
ШЕ / \ 
| у 
BU5.2.5 ЖЫ tk E 
2 .人 句 友 : 


纺 定 一 个 树 形 副 了 = (N, О. р, Р, L, ауу), Ñ 

HERH 
(z, DEDAU, DJEDA JZ ENC, 226 BA (u, 2) В] 

如 梁 z 与 4 是 名 友 , 则 二 老 彼 此 互 不 支配 ,所 都 属于 疯 一 个 结 z。 

在 图 5.2.5 中 ,“ 小 王 ” 与 “西山 "是 名 友 ， 央 为 这 两 个 结 彼此 于 
不 支配 ， g TA. игиге, RA 

它们 不 属于 同一 个 结 。 

ЖЕЕ Зу, 名 友 这 一 概念 ， 可 把 句子 内 的 成 分 与 甸子 由 的 
威 分 区 别 开 来 ; Ж Арн, р д, TEA Ае ОЕ, 
分 区 划 开 来 。 

3.8%, 
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给 定 一 个 树 形 图 T = (CN, Q, D, Р, L), фей да ФЕ, xH 
RH: 

OQ, ЮЛ у, з) РАЗ EN ЄВА (2,0060), 

Вр, ау НУ, Н Р-р 的 续 


ТЕ 5.205, АКАТ Цр, post Ҥ ЖЗ. m 
P APRS ASLA” W TRR AA, RA 
IU RTRA ННЯ ES, RARE RE RA 
ЖЫЯ HI, ЖЕЙ.“ JNE ЖЧ N” H, E SE mUd, Ц” 
也 统率 “小 斑 *。 

统率 这 个 概念 ， 在 主 从 复合 名 中 ， 反 映 了 主 甸 中 的 成 分 对 从 
名 中 各 成 分 的 统率 作用 ， 在 简单 铝 或 同一 分 名 内 ， 它 可 以 把 和 名 内 
成 分 和 和 外 成 分 区 别 开 来 。 

可 见 ，“ 属 于 ?.、“ 铝 友 " 和 "统率 ”这 三 个 概念 ， 对 于 句法 结构 
的 数学 措 述 是 大 有 好 处 的 。 

树 形 图 与 上 下 文 无 关 文 法 有 着 密切 的 联系 。 我 们 可 以 用 宕 形 
图 来 形象 地 表示 上 下 文 无 关 文 法 ， 它 们 之 间 的 联系 可 通过 下 述 方 
法 来 建立 ; 

设 G= (Vs, Ут, S, Py FE F 2368 33k, 其 重 写 规 则 的 形 
式 是 

А-——>@ 
其 中 ，4 是 单个 的 非 终极 符号 ，o 是 异 于 区 的 符号 串 ， 即 有 
Аг =1< о], 

ОНЧА РАНЕ КРДЕ, о F УЭ Se H СЕ 
FH 

人 每 一 个 结 有 一 个 标记 ， 这 个 标记 是 Y 中 的 符号 ， 

@ 根 的 标记 蚌 S， 

饼 如 果 结 部 至 少 有 一 个 异 于 其 本 身 的 后 裔 ， НИВА, I 
么 ， 友 必定 是 Yn 中 的 符号 ， 
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ФАИ, п. OOP, п ЛЕЕ БТ, 从 去 而 而 排 
х, HERA MHA Ar Аьр ЖА. 
ААА Ag 
DE ЕРУН ЗЕ #5 ЖЖП, 
И, ИА АКРЕ. з 
С=(УИх, Vr 5, P) 一 


7 IN 
Vy IA, Бу “у ЛА. sG 
Vr (a, b} I ` 
5 = {5} sS TO, > - 


Р, $——>аА® | N 
A—SA 2 一 
š (э) „(б “№ 
&—a " 
Аж [5.2.6 OF 3 3 ty ВИ 


这 个 文法 的 四 个 重 写 规则 ， 去 边 都 是 单个 的 非 终 极 符号 8 或 
者 A, 右 按 痢 是 异 隆 铬 的 符号 于 ,四 而 它 是 一 个 上 下 文 无 关 文 法 。 

现在 ， 我 们 画册 这 个 文法 的 推导 树 。 为 了 便于 说 明 ， 我 们 用 
圆 图 表示 结 ， 并 把 结 纺 上 上 号码， 把 标记 注 在 绩 的 旁边 ， 边 的 方向 
都 假定 是 直接 向 下 的 。 这 个 推导 树 见 回 5.2.6。 

从 这 个 烦 形 图 中 哥 忆 看 测 ， 1，3，4，5，7 等 结 者 有 直接 后 
W. ALERO CRES HEK AAEREN АЖ 5, 
WW S—sa AS ЛИ, 5З ARRENA, ДА ЕИ PRIJA 
1 #3605, 5, А, ША» БАДЕ Б ЖИ {АЯП АКЫ ШШ 
为 S, 它 们 每 一 个 的 直接 后 商 的 标记 为 06, 因而 S 一 >a 是 至 写 规则 。 
结 7 的 标记 为 4， 其 直接 后 窗 从 左 算 起 为 PB 和 a， 因 而 有 A 一 3ba 也 是 
重 写 规则 ， 几 此 可 见 ， 刚 才 画 出 的 文法 СОНЕЧНА ЛЬ ЗЕ ОИ БТ 
SORAS OS fF 

ШЖ У.Е ARE МНЕ, МЕГ —4-@ 
Ж Уа, ЖАЛТАҢ em aE ER tE AEN, ШЖ 
ад F 3 AG = (Vy, Ут, 5, PRERE, ША 
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55а 
с 
МШ, ЖЕО ЦИ, ДАЕМ Ж ТН УЛ, 9,6, 
10, 11918, ТАО ЕАУ а, a, b, b, афа, ЕЕЕ 
Жа = aabbaa, И, 


+ 
S ==> aabbaa 
С 


在 上 而 的 推导 村 中 ， 为 了 说 明 方便 ， 我 们 给 每 个 结 编 了 号 。 
在 一 般 情况 下 ， 我 们 并 没有 必要 给 结 编号 ， 而 在 结 上 直接 写 上 其 
标记 。 例 如 ， 上 面前 推 寻 树 的 习惯 画 法 如 图 5.2.7 所 示 。 

其 推导 过 程 为 

S= gA S m а56А5 ==> aab AS => ааһраб ==> aqbbaa, 

乔 姓 斯 基 证 上 明了， 任何 的 上 下 文 无 关 活 言 ， 均 可 由 重 写 规则 
为 

A— BC W А —a 

的 上 下 文 无 关 文 法 生成 ， 其 中 ， A, B, СЕУк, aEYr, 这 种 规 
ИП ЕЕЕ. э 


s 


N 
/| A/A 


图 5.2.7 FRATRE 5.2.8 ERG E ascbbbbBl Ж 


利用 乔 姆 斯 基 范 式 ， 可 以 把 任何 的 上 下 文 无 英文 法 的 推导 树 
篇 化 为 二 元 形式 。 
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例如 ，. 上 下 文 元 关 语 言 {a"cb*?} 的 文法 的 重 写 规则 为 
$S——aCbb | 
©->пСЬ 
C-e 
如 果 要 生成 符号 圳 aacpbDBp， 其 推导 情 如 阿 2.5.3。 
现在 我 们 把 这 个 文法 的 三 个 重 写 规 则 改写 为 乔 姆 斯 基 范 式 。 
在 这 三 个 规则 中 ，C 一 2 是 符合 乔 姆 斯 基 范 式 要 求 的 ， 不 必 再 
变换 。 我 们 污 把 S-raCbp 及 C-xzaCbb 的 右边 多 为 非 线 极 符号 ， 用 
S—ACBBEA--a, Bo>b3k381S-aCbb, МС--АСВВВА-а, 
ВЖ Ca Cbb, RA, JBRuS--ACHB, C—ACBB 的 右边 
换 成 二 元 形式 ， 用 5S->DE，D-r4C 及 E--BB 来 替换 S->4CBB, 用 
C-~DE，D->AC 及 B->BB 来 营 换 C-> 4CBB。 这 样 ， 便 得 到 了 符 
ЭЗЕТ ЖЕТИ А, ЖЕК ПЖ ТП УУД 
S— DE 5 


D— AC РА — 
Е—ВВ 。 
С->РЕ S NS N 
А-а 

А 


рр] | 


ЖЕЛШ Ж. ИНИ  iBaacbbbb ЧИ ИЕЛ ЛОБ 
R ЭКЗ ЛОБ НИЕ РИ у у 5.2.9977, 
ЖЕЙ к НҮ ЕЗИ IE ВА АН Әй, ZRA 
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白 然 语言 的 形式 描写 提供 了 教学 模型 。 
ННН а ОЕ ARREA 
元 形式 。 汉 语 中 由 详 词 和 实 词性 词组 组 合 感 的 名 法 结构 绝 太 部 分 
RECHTERS., Oi: 
1. 主 调 结 构 ， 小 王 工作 
2.8 IF 2519. 优秀 学 生 
3. 述 宾 结 构 ， ЗЕДЕН Ж 
4. 述 补 结构 ， 洗 干净 
L f 
5 RAAH KEAR 
6. 揽 调 结构 ， 去 看 电影 
事实 上 ,语言 学 中 正 是 采用 二 分 法 来 分 析 句 子 的 。 二 分 法 就 
是 所 谓 的 层次 分 折 法 ， 这 种 分 析 法 认为 ， 一 个 复杂 的 语言 形式 ， 
不 能 一 下 子 就 把 它 分 析 为 若干 个 词 ， 而 要 按 下 面 的 步骤 逐 层 地 进 
行 分 析 ， 


可 
LL. | 
а 


1 本 4 A 
‚ А" йт, (т руй. (Cn ш, 


图 5.2.10 层次 分 析 法 示意 图 


从 图 5.2.11 中 可 以 看 出 ， 我 们 不 是 把 A 一 下 子 就 分 成 A111， 
Aji: 2A.11.A.16.A.... aas 这 七 个 部 分 的 ,而 是 先 把 4 分 成 4 
ЖА, УУ, НВА DRA RMA 两 部 分 ,把 4 ДА, ЯШ 
An WRI” ХНА: ТАА: А.а, ДААА 
HA :两 个 部 分 ,… 等 等 ， 这 样 和 分 析 下 去 ,一 直 分 析 到 单词 为 止 。 
ARDEN JEA 和 4 ША КЕЕ ЖЕНЕ, ПА 1 НА, ЦА, WE 
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R BA MAn ПИА т 的 直接 成 分 ,…… ‚ 等 等 。 这 种 
腊 次 找 出 说 言 恪 式 的 直接 成 分 的 方法 ， 叫 做 喜 接 成 分 分 析 法 或 屋 
- 旋 分 析 法 ， 因 此 ， 在 语言 党 界 ， 又 有 人 把 乔 媚 斯 基 的 上 下 文 无 淆 
文法 叫 向 直 苞 成分 语法 或 短语 绪 构 语法 。 得 语 结 构 语 法 成 为 一 个 
广泛 合用 的 语言 学 术语 ， 在 机 器 翻译 和 计算 语言 学 中 得 到 了 进 一 
步 的 检验 和 研究 。 

由 于 乔 姆 斯 基 范 式 反 瞻 了 自然 诸 言 的 二 分 特许 ， 因 而 通过 乔 
媒 斯 基 范 式 这 .一 重要 工具 ， 短 岩 晴 构 请 法 成 为 了 自然 语言 研究 中 
的 一 种 最 基 本 的 语法 。 

事实 土 ， 不 少 诺言 学 家 在 他们 描写 自然 庙 言 的 研 宽 中 ， 早 已 
认识 到 了 自然 证 育 的 这 种 二 分 特性 。 

ЖЕРЕ НУН 中 提出 了 “两 端 两 语 说 "、 他 指 
- 出 ;“ 阁 意 非 两 端 不 明 ， 而 句 非 两 语 不 成 ”。 美 国语 言 学 家 奈 达 (E, 
А. Маана Ш, "ЖЕ ЕМ „ДЕП ЖИЕН НИН 
于 二 分 "DD。 美 国语 言 学 家 福 蛙 斯 (C .C.Fries) 在 ¢ 莫 语 结 构 ; 一 书 
中 ， 更 是 明确 起 提 出 了 二 分 的 观点 ， 他 指出 , “在 英语 思 ， 一 个 结 
构 层 次 通常 内 有 两 个 成 分 。 当 然 ， 每 一 个 成 分 都 可 以 电 好 几 个 单 
位 组 成 ， 不 过 在 同一 层次 上 , 结构 的 直接 成 分 台 常 具有 两 个 "名 。 
出 此 可 见 ， 图 论 给 语言 学 家 提供 的 二 叉 耕 ， 确 实 是 语言 研究 的 一 
个 有 力 手 跨 。 


ID E.A. Nida, Morphology, University О] Michigan, 1949, Ж 
91—93 1. 
@ С.С. Fries, ӨЕ р ОН Ж), AANE 264, 
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语言 符号 的 非 单元 性 与 复杂 特征 的 运算 


第 1 节 ”语言 符号 的 非 单 元 性 


特 第 五 意 中 我 们 说 过 , 敌 诺 结构 语法 在 图 论 申 的 描述 形式 是 
音标 记 的 二 叉 柑 形 图 ， 这 种 树 形 图 反映 了 自然 语言 的 二 分 特性 。 
但 在 具体 的 白 然 滞 言 研究 中 ， 特 别 是 在 砚 器 恶 详 等 自然 语言 的 计 
FILERE RAIER ERARA ENR 

第 一 。 虽 然 自 的 语言 的 结构 个 向 于 二 分 ， 但 二 分 法 并 不 是 到 
处 行 得 通 的 ， 特 别 是 在 汉语 中 ， 许 多 语法 形式 着 来 宜 于 采用 多 分 
ж. Й 

1, 双 宾语 结构 ， 

给 弟弟 一 本 书 
. 莱 语 式 结构 ， 
请 他 做 报告 
.多 于 两 项 的 联合 结构 ， 


ЛЕ. DERDE 
—_1 ~ 


b3 


“з 
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的 ыт гале юр]. P 

AAR + у РР EJ, 
КРЕ 3] ЫЧ 
ри р РАНЕ О ЦИ | 


‚ЖОЙ (15849, 
ELET 

ТЕНГЕ, RAZPENA 

@@ 可 以 更 加 合理 地 解释 湛 壁 现象。 例如 ,* 请 他 做 报告 ”中 ， 
“他 ” 作 “ 请 ”的 宾语 ， 又 作 “ 做 报告 ”的 主语 ， 一 身 而 二 任 ， 罗 
困 采 用 二 分 法 ， 在 补 形 图 上 就 会 发 生 交 叉 现象 ， 韦 反 了 树 形 图 的 
“ 非 交 条件 "破坏 了 衬 形 图 的 结构 ， 采 用 多 分 法 分 析 为 “请 dR! 
做 报告 ”三 部 分 ， 用 -个 三 叉 构 形 图 米 表 示 其 结构 ， 便 不 会 发 华 
交叉 现象 。“ 给 弟弟 -本 书 ”中 ，“ 给 "有 两 个 宾语 、 采 用 多 分 法 ， 
用 一 个 三 叉 笠 形 阁 来 表示 其 结构 ， 其 层次 更 为 清楚 。" 努 力学 习 数 
学 ”中 ， 状 诉 “ 努 力 ”究竟 是 修饰 述 语 “学 习 ”, 还 是 修饰 述 语 + 
宾语 “学 习 数 学 ”, 从 语感 上 很 难 判 别 ， 一 次 就 把 它 分 为 二 部 分 ， 


сл 


避免 了 解释 上 的 困难 。 
仿 可 以 在 自然 诺言 自动 处 理 中 减少 编制 程序 的 工作 重 : 一 些 


长 包子， 如 时 采用 二 分 法 ， 层 次 会 多 到 十 层 八 层 ， 计 算 机 在 处理 
这 样 的 多 层次 的 树 形 图 时 ， 需 逐 层 进行， 运算 量 很 大 ， 而 采用 多 
分 法 ， 大 大 减少 了 层次 ,提高 了 自然 语言 计算 机 处 理 的 工作 效率 。 

图 可 以 抓 住 句子 的 主 于 ， 把 句子 的 格局 河 楷 地 显示 出 来 ， 便 
于 检查 和 研究 。 

НЕ, ВЕНУ ХЕК ЈЕР, MHES 
АЗЕ А Е-Е А. EU YOL SB W E: 5 У 
БЛИН КРЕНА. Н “© n P AE “ШУ”, “я”, 
ETHE CIN CR", ДН АЕ J д, 而 “二 
X7 H AES AR” тусй” J O WA ЖИНИ 
Yo 

第 一 ， 单 标记 树 形 图 的 标记 太 简 单 ， 不 宜 于 区 分 自 榴 语 言 中 
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的 歧 闵 结构 。 

在 短语 结构 语法 的 推导 权 T= (N, О, D, P, руф, L 是 从 
六 到 怠 的 标记 函数 。 这 入 标记 函数 是 单 值 标 记 男 数 ， 也 就 是 说 ,对 
应 于 结 点 集合 AN 中 某 一 元 素 z, 有 标记 集合 & 中 的 一 个 元 束 ! 与 之 对 
应 ， 这 禅 的 单 值 标记 函数 ， 可 记 为 

Їқїу= 9 

在 短语 结构 语法 中 ， 标 记 一 般 是 用 词类 或 词组 类 现 等 非 终 极 
符 导 以 及 符 导 峙 元 素 等 终极 符号 来 描述 的 ， 企 非 叶 结 点 上 的 标记 
是 非 终极 符 导 ， 在 叶 结 点 上 标记 是 终极 符号 。 

这 种 单 值 标记 函数 玫 示 的 语言 等 征 是 十 分 有 艰 的 ， 因 而 会 产 
生 大 莉 的 歧义 结构 ， 形 成 大 量 不 人 台 语 法 的 句子 ， 这 是 单 值 标记 函 
数 的 最 大 缺点 ， 也 是 以 间 值 标记 衣 数 为 特征 前 短语 结构 语法 的 最 
大 缺点 。 

自然 语言 的 句子 不 能 只 用 词类 或 词组 类 型 等 特征 来 描述 ， 特 
别 是 在 汉语 中 ， 句 子 各 个 成 分 的 词组 类 型 、 旬 法 功能 ,语义 关系 、 
BRKZ, FERRARE RISA, HEREA 
А А ЙЕ, Е АНЕ УШ, ЭХ, ЖЫ 
ВЗН, ЖАЛАНА ИТН А. ВН, 

Ф А PAAR СБА Ж) БИШЕ СУ [Ш Ж ДЕДЕ 
简单 的 一 一 对 应 关系 。 

用 得 语 结 构 语 法 的 单 值 标记 画 数 来 分 析 英 语句 子 时 ， 对 于 树 
形 图 中 的 等 一 个 结 点 ， 只 给 关于 河 组 类 型 或 词类 的 特征 ， 起 5， 
NP, УР, Ad, N, УЗ, ЛЕШАК KHA, HATE 
证 中 ， 一 旦 把 S 分 解 为 NP 和 VYP， 那 么 ，NP-- 般 是 主语 ，VP 一 般 
是 谓语 ， 形 成 一 个 主 请 结构 ; 一 旦 把 VP 分 解 为 VY 和 和 NP， 那么 ，V 
一 般 是 述 语 ，N? 一 般 是 宾语 ,形成 一 个 述 宾 结构 ; 甸子 组 成 成 分 
的 词组 类 型 和 句法 功能 之 闻 存 在 着 比较 简单 前 一 一 对 应 关系 。 当 
名 了 各 个 成 分 的 句法 功能 关系 确定 之 后 ， 也 就 不 难 进一步 确定 这 
些 成 分 之 间 玖 语义 美 系 和 仙 辑 关系 ， 从 而 实现 句子 的 旬 法 分 析 和 
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证 闵 分 折 。 

估 是 ， 在 汉语 中 ， 仅 忆 使 用 词组 类 型 〈 或 词类 这样 的 特征 
基 远 远 不 驶 鬼 ， 因 为 汉语 句子 中 的 词组 类 型 或 词类 ) 与 句法 功 
前 之 问 不 存在 简单 的 一 一 对 应 关系 。 一 个 NE 加 上 上 一 个 VP ,可 以 构 
JES aJ C "Лу B”) EEA AR RRES G, W E 
序 / 设 计 ”， “程序 ”是 NP， 不 作 主 语 而 作 定 语 , “设计 ”是 YP， 不 
性 谓语 而 作 被 柳 饰 的 中 心 语 。 类 亿 的 例子 还 有 “语言 /学 习 ”、' 族 
MLE”, “ШИШ Pia" Š, 词组 类 型 都 是 NP + YP, 可 是 , Ж 
成 主 谓 结 物 ， 面 形成 偏 正 结构 ， 在 这 和 多 情 况 下 ， 如 果 只 用 词组 类 
型 这 样 的 简单 特征 NP+ VP 就 不 能 区 虽 这 种 辣 构 在 名 湛 功 能 上 的 
歧义 ;而 必 须 踊 使 用 词组 类 型 特征 ,又 使 用 各 法 功能 特征 ,这 样 ,我 
们 在 树 形 图 的 结 碾 上 ，、 就 不 能 采用 音标 记 , 而 必须 采用 多 标记 了 ， 

采用 多 标记 ， 对 于 形成 主 亩 结构 的 NP+YP， 可 描述 为 


(К=МР K=p 7 
, CAT = + |САТ=у 
| FS=SUBJ _ .FS=PRED ` | 


AH, кок ШИ 竺 征 ，NP 和 VB 都 是 和 这 个 特征 前 值 ， 它 伴 

形成 一 类 讨 记 :CAT 琢 孙 词类 特征，N 和 Y 都 是 CAT 这 个 特征 的 

值 ， 它 们 又 形成 另 一 类 标记 :FS 表示 名 法 功能 特征 ，SUBI 和 

PRED 是 FS 这 个 蛙 钙 的 值 ，SUBJ 表 示 主 语 ，PRED 表 示 谓 请， 它 

又 形成 一 类 新 标记 。 这 样 ， 这 一 类 结构 的 每 一 个 结 点 上 ， 就 不 再 

具有 一 个 单 标 记 ， 而 是 具有 三 个 标记 ， 形 成 多 标记 的 结构 。 
对 于 形成 偏 正 结 构 的 NP + VP， 可 描述 为 


TE=NP 7 "К = ур 
САТ = № + | CAT=Y | 
{SF=MODF _ LSP= HREAC || 


Н, МОЪЕЖ ДУДИ, НБВАРДО р, ENESE Е 
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的 值 。 

对 于 这 两 种 词组 类 狸 相 同 而 句法 功能 不 同 的 结 物 ， 如 时 内 用 
单 标 记 的 简单 特征 NP + VP 来 描述 ， 吕 然 就 不 能 反 喘 它们 在 名 法 
功能 方面 的 差异 ， 必 须 同时 用 词组 类 型 竺 从 和 句法 功能 特征 结合 
和 帘 成 的 多 标记 ， 才 能 准确 地 撕 述 它们 。 

汉语 中 一 个 YP 训 上 一 个 NP， 可 以 形 戚 述 宾 结 攀 ( 如 “学习 / 英 
语 ”)，、 但 也 可 以 形成 偏 正 综 构 ， 刀 “出 租 / 汽 车 ”中 ,，“ 出 租 ” 是 
YP， 不 作 述 语 而 作 定 语 ，“ 汽 车 ”起 NP， 不 作 “ 出 租 ” 的 宾语 而 
作 被 “出 租 ” 修 饰 的 中 心 语 。 类 似 的 例子 很 多 ,如 “研究 /方法 ”、 
“学 习 / 制 度 ”、“ 开 放 / 政 策 ” 等 ， 词 组 类 型 都 是 VP+NP， 可 是 ， 
TERERAA, MERRER PAPRAT, WERAYE 
标记 的 简单 特征 VP+ NE 来 措 述 ， 就 会 产生 句法 功能 战 义 ,而 必须 
采用 多 标记 的 方法 来 描述 ， 皮 使 用 词组 类 列 特 征 ， 又 使 用 句法 功 
ВЕЧЕ, АОИ БЖ. 

对 于 形成 壕 宾 铺 构 的 YP + NP， 可 描述 为 


K=VP K=NP 
САТ = ү | + [CAT=N 
_"FS=PRED FS =OBJE 


式 电 ，ERED 表 示 述 语 。DBJE 玫 示 宾 语 ， 它 们 都 是 名 法 功能 特征 
SFP 的 值 。 
对 于 形成 偏 正 结构 的 VP + NP， 指 述 为 


K = VP. K=NP 
CAT= V | + [CAT=N | 
_FS = МОРР FS = HEAD 


式 中 ，MODF 表 未 定语 ，HEAD 表 示 中 心 语 ， 它们 是 句法 功能 特 
征 ES 的 值 。 
A PX ВЧ АН Н А ЕЕ, з А ЯТ 
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单 标记 的 简章 特征 YE = МР} Ж, ШЕЕ h, 必须 采 
用 多 未 记 的 方法 来 描述 。 

地 汉语 句子 中 间 组 类 型 (或 词类 ) 和 句法 功能 都 相同 的 成 分 ， 
它们 与 铝 中 其 它 臣 分 前 语义 关系 还 可 能 不 同 ， 和 名 法 功能 和 请 义 闫 
系 之 问世 不是 简 音 地 一 一 对 应 的 。 

司 禅 是 由 NP 我 VP 姐 成 的 主 调 结构 ， 其 中 作 主 语 的 NP 的 语义 
可 以 是 施 事 者 《元 “ 小 王 / 工 作 ” 中 的 “人 小 王 , 也 可 以 是 爱 事 省 
О KERET” PA К"), ИЧР ТА Gi “Z 
T/R, AFRE PE "ЖОГ ЯП HOP) ВЕ, {ЕИ 
名 子 的 自动 您 理 中 ， 公 仅 损 道 了 各 子 藤 组 成 成 分 前 词组 类 型 特征 
АЛИВ КАЕ, ATRASE, ЕЕЕ КАМЕЛА 
ШОК, 1%, ЖЕНЕТ H Silu TY. 

对 于 NP 的 语义 关系 为 施 束 者 、 和 外 法 功能 为 主语 的 NP + VP, 
可 描述 为 


— K a= NP 1 (K = VP 7 
САТ = М ' |сАг= у | | 
| | + { 
FS = SUBJ | FS = PRED | 

_-5М = AGENT_ 2 


EF, ЗМЕЕ ХКА, АСЕМТЖТ ЗФ, CEMR 
РМР НФ, АДЕН EE BNP + УР, 
可 描述 为 


| K= МР - K=VP 
|: САТ № САТ = V 
SF = SUBJ SE=PRED + | 


SM = PATIENT | 


А, PATIENTER RFH CEEX ARHESM КИЧ. 
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对 于 NP 的 语义 关系 为 工具 、 旬 法 功能 为 主语 的 NP 7+ VP, Hf 
Шер ОЕШ 


[—K= NP ú K = VP 
CAT=N CAT=V | 
SF = SUBJ SF = PRED 

SM = INST 


其 中 ，INST 表 示 工 具 ， 它 也 是 语义 关系 特征 SM 前 情 。 

同样 是 由 VP 和 NP 组 成 的 述 宾 结 构 ， 其 中 ， 作 宾语 的 NP 的 语 
ХНА АНЬ, ARIP, ТЕЗЕ ИЛР. -RARER тую 
受 事 者 ， 但 在 汉语 中 ， 作 宾语 的 NP 在 语义 关系 上 可 以 是 述 语 
BERA, Ы. Н. ё. ТАА, 

ИШ, 1] “227 FUH ЕЯ АОМР, ERIH, Хш ЖЕ 
МРЕӘЖ $” BVI SOS RIN R. ТЕ “2 DE” оп, KW 
“学 生 ” 是 “者 ”的 受 事 者 ; fe “29/32 rh, EE “Sun 
“ 考 ” 的 范围 ， 在 “ 考 / 北 大 ”中 ， 宾 语 “ 北 大 ”是 “ 考 * 的 目的 ; 
在 “ 考 /研究 和 全” 中 ， 宾 语 “ 研 究 生 ” 赴 “ 考 ” 的 结果 C“ 考 /研究 
生 ” 在 语义 上 是 有 上 疲 义 的 ,在 一 定 的 环境 下 ," 研 究 生 "可 以 是 “ 考 ” 
KERK, ERRA ;在 “ 考 /… 百 分 ”中 ， 宾 诈 “ 一 百 分 ”" 也 
是 “ 考 ” 的 结果 。 因 此 ， 在 中 文 甸子 的 分 析 申 ， 仅 仅 有 了 词组 类 
型 特征 和 旬 法 荔 能 特征 还 是 不 够 的 ,还 必须 再 加 上 语义 关系 畦 征 。 

对 于 NP 的 语义 关系 为 受审 者 ， 旬 法 功能 为 宾语 的 VP + NP, 
DELES 


K=VP K=NP Е 
[слг =V | САТ = М | 
SF = PRED + SF = OBJE | 
=РАТІЕМТ | 


其 中 ，PATIENT 岩 示 受 吉 者 ， 它 是 活 义 关系 特征 SM 的 入。 
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АМР МСЕК, ПАЈЕ ЗС AVP + NP, эр 
描述 为 


_ _K= NP _- 
K= vP ; CAT=N 
CAT=V +| SR = OBJE 


SPPREÐ © su SCALE | 


Җир, САГЕ, П С НЧЕБМАНН. 


对 于 NF 的 语 尺 美 毗 为 月 的 ， 名 法 功能 为 寅 河 的 YP+NP， 可 
描述 为 
K=VP -K = NP 一 | 
CAT= V CAT =N | 
| LSF =FRED SP = OBIE | 
LSM=GOAL - 


其 中 ，GOAL 表 示 生 的 ， 它 是 语义 关系 特征 SM 的 值 。 
对 于 NP 的 语义 关系 为 结果 、 和 句法 功能 为 宾语 的 YP+TNP， 可 
描述 为 


к=ур БАШ - | 
САТ = V + CAT=N x 

SF = PRED SF = OBJE 
“SM= RESULT ~ 


其 路，RESULT 表 东 结 困 ， 它 是 语义 美 系 特征 SM 的 什 。 

他 汉 洁 中 单词 所 几 有 的 谨 法 特征 和 语义 特征 ， 对 于 判别 词组 
结构 的 性 质 ， 往 往 帮 很 大 的 参考 价值 ， 除 了 词组 类 型 这 洋 单 标记 
的 简单 特征 之 外 ， 册 加 上 单词 辐 有 的 语法 特征 各 滞 头 特 征 、 采 用 
多 标记 前 方法 来 描述 ， 就 可 以 判断 词组 结构 的 竹 质 。 

在 VYP+NP 这 样 的 词组 类 型 结构 中 ， 如 时 YP 的 语法 待 征 是 不 
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у, WA, УР АЕ ВЕ 528 ЕТЕ ,WP 的 名 法 功能 必 为 中 
心 语 。 倍 如“ 示 踪 程 序 ” 中 ,“ 示 踪 ? 为 YP， 是 一 个 不 及 物 动词， 
“程序 ”为 SP， 国 为 不 及 物 动 词 不 能 带 宾 滞 ， 央 此 ， 称 序 ” 不 能 
Ж “жй” НИЕ, ЗАН} “л RER ЖЕ)” ЖЕР} 2 
Н, Ик 


К = VP x - ND 


CAT= V Гот ] 
TRANS=IV | 


; CAT= V 


T? TRANS=IV 
||_sF -MODF -~ 


„| CAT=N | 
SF -HEAD 


式 中 ，TRANS 表 示 动 词 的 及 愧 性 ,IV 均 未 该 动词 的 及 先 狂 为 不 及 
入， 它 是 特征 TRANS 的 一 个 得 。 

Z ATHE, ЖУР + МРН, ЩУР ЛЕ БО 
І, МР БИТВЕ Е, NPR TAN ИЕ АН ОЕ. 

НЕТИ Ңң Ж ВК ЕНЕ ЖАП ТАЈ ЁН ЇЙ] ЫЕ 
能 的 作用 。 

此 和 外， 学 词 本 身 辐 有 的 语义 特征 ， 寺 于 判断 词组 章句 法 功能 
也 有 很 天 移 作 用 。 

fE R Ea VP L NP 中 ， 当 VP 为 及 物 动词 ， 吧 它 的 及 物 
ЖЖП, ИШИҢ 的 句法 功能 特征 ,就 本 以 根据 NP 的 语法 特征 来 
谭 别 。 一 般 地 说 ， 当 YP 为 及 物 动 词 ，NP 为 抽象 名 词 ， 即 NP 的 固 
有 语义 特征 为 “ 油 象 欧 ” 时 ， 或 者 当 NBE 为 类 和 名词， ВМРЕ Ж 
语义 特征 为 “类 别名 萄 ”时 ，YP 的 句法 功 稻 为 定语 ,NP 的 句法 功 
能 为 中 心 语 。 例 如 ,“ 训 缂 /目的 ”这 个 词组 中 ，“ 训 练 ” 为 及 物 动 
H. ER JERAR, BOHR KHERA WRA”, 
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因此 ， 可 判断 “训练 ”的 句法 功能 为 定 请 , * H B9" W yaku b? 
Ho, ATEA: 生产/ 宗 骨 。 培 养 /目标 、 发 展 /方向 、 
管理 /体制 、 进 长/ 计划” 村。 又 如 ,“ 管 理 / 人 员 ” 这 个 词组 中 ， 
“管理 ”为 及 物 动 词 ，“ 入 员 ” 为 类 和 名词， 即 “人 人员 ” 的 加 有 语义 
沪 “ 类 别 各 称 ”, 因 此 ， 可 判断 “管理 ”为 修饰 语 “ 人员 ”为 中 心 
їй. 类 但 抬 合子 还 有 ;采购 /人 员 ， 进 修 /教师 .领导 /干部 .评论 / 
TE., AIET, EERE” S., 
РЕ Ус 


K= ур К = МР 
САТ - У |. елеем | 
TRANS= ТУ! LSEM= ABS 
[-К=ур - -K=NP 
| CAT=V CAT=N 
[| TRANS=TV | SEM = ABS 
| SF=MODF 7 SF=HEAD ~ 


后 一 种 情况 本末 示 为 
К= VP K=NP 
[Ату | 十 [сАт-н | 
TRANS = TV SEM = SORT 


K= VP -K=NP - 
|| CAT= V | CAT=N 
TRANS = ТУ | SEM = SORT 
| SF=MODF 一 SF=HEAD 


式 中 ，TV 家 示 “ 及 物 ”, 它 是 特征 TRANS iA, ABSE R" i 
保 物 ”, 它 足 特 征 SEM 揭 .~ 个 值 ，SORT 家 水 “类 别名 称 ”, 它 是 特 
. 198. 


利 SEM 的 另 48. КЩ. RESEM 5 RoR ARESE — PE 
SEM 是 单词 本 身 风 有 的 语义 特征 ， 它 不 反映 单词 与 单词 之 间 的 语 
义 关 系 ，SM 有 是 单词 的 诺 义 关系 特征 , 它 反 足 的 正 是 单词 与 单词 之 
间 的 语义 关系 。 

由 此 可 见 ， 企 汉 滞 句子 的 描述 中 ， 仅 仅 采 用 词类 或 词组 类 型 
这 样 的 单 值 标 记 是 远 运 不 够 的 ， 必 须 再 加 上 旬 尘 功能 特征 和 语义 
关系 特征 ， 其 至 还 要 加 上 准 词 本 身 图 有 的 语法 种 详 义 特征 ， 才 有 
可 能 比 逻 全面 地 表达 甸子 中 包 仿 的 语言 信息 ， 从 而 也 才 有 可 能 成 
功 好 进行 汉 铬 甸子 的 自动 分 析 ， 建 立 与 汉语 有 关 的 机 器 翻译 系统 
或 人 机 对 话 系统 ， 所 以 ， 我 们 在 汉语 包子 的 自动 分 析 中 ， 必 须 对 
乔 姆 斯 基 短 语 绪 构 洛 法 进行 修正 ， 采 用 多 标记 的 方法 ， 犯 单 标记 
的 树 形 图 变 为 多 标记 的 树 形 图 。 

以 上 我 们 只是 对 这 个 问题 作 了 初步 的 论述 ， 而 实际 的 语言 现 
象 往往 比 我 们 想象 的 还 要 复杂 得 多 。 汉 语 中 施 事 者 和 受 事 老 有 时 
鼻 礁 分 辨 ， 常 常 需要 语 境 方 面 的 背景 知识 才能 判 测 。 例 如 ,在 “小 
ЕИ" АМР VPH, WE PE” EH 发 Mi, WA, “ЛЬ 

一 般 应 该 是 施 事 者 ， 他 给 别人 理发 ， 如 果 “ 小 王 ” 不 是 理发 
项 ， 而 是 被 理发 的 人 ， 那 么 , "小 王 ” 就 是 受 事 者 “小 王 ” 究 竟 是 
施 事 者 还 是 受 事 者 ， 蚌 由 “小 王 "的 身份 这 种 背景 知识 来 判别 ， 单 
赁 语言 本 身 是 难以 分 辨 的 。 这 时 ,我 们 在 译 形 图 结 点 上 加 的 标记 ， 
就 势必 要 扩大 到 庄 境 特征 的 范围 了 。 这 类 例子 并 不 少见 。 在 “小 
F/B”, *“ЛЕ/ЛИЯ”, "ЛЕГ" GNP+ VP 中 ，“ 小 王 ” 
究竟 是 施 事 者 还 是 受 事 者 ， 都 要 通过 语 壤 特征 的 分 析 ， 才 能 作 
出 正确 的 判别 。 在 这 些 情况 下 ， 就 更 需要 采用 多 标记 的 方法 
了 。 

基于 上 述 原 因 ， 我 国学 者 于 1981 年 对 乔 姆 斯 基 的 短语 结 物 请 
法 进行 了 重要 的 改进 ， 提 出 了 多 信 标 记 函 数 的 松 念 ， 并 用 多 值 标 
记 遂 激 来 代替 短语 结构 语法 的 单 信 标志 函数 。 

ЗЛА лг. 
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|у: | 
Іх) = і} 
lz, J 
采用 这 样 的 多 全 标记 函数 ， 娩 形 图 中 将 ~ 个 结 点 7 ,不 青 仪 仅 
对 应 于 一 个 标记 ， 而 是 对 应 于 若干 个 标记 {Vs Се s jj。 


在 同一 个 结 点 上 采用 多 个 标记 ,大 大 地 提高 了 树 形 图 的 标记 功能 * 
使 得 树 形 图 的 各 个 结 点 上 ， 都 能 记录 尽 可 能 多 前 语法 语义 信息 ， 
除了 记录 短 详 结 构 语 法 所 常 采用 的 词类 或 词 纪 类 型 信息 之 钉 ， 还 
记录 单词 本 身 国 有 芍 详 法语 义 人 信息、 单词 之 阅 或 词组 之 间 的 句法 
功能 情 息 、 单 词 之 间或 词组 之 间 的 语义 关系 信息 、 单 词 之 癌 或 调 
组 之 词 的 远 辑 关系 信息 。 实 践 证 明 ， 这 样 的 多 值 标记 函数 有 效 地 
克服 了 得 语 结构 语法 的 向 陪 ， 在 自动 各 法 语义 分 析 方 面 ， 特 别 是 
ТЕЎ ШЕ У/ ЕЗШШ, ЕГЕУ, 

我 畏 学 者 在 多 和 值 标记 函数 的 基础 上 ， 进 一 步 有 用 多 允 树 形 图 
来 代替 二 及 衬 形 图 ， 儿 出 了 “汉语 句子 的 多 又 多 标记 树 形 图 分 析 
B”, ВАУ ШСБ А Д “£ X Ф W Yo BJ Bs 18 
(Multiple- branched and Multiple 一 labeled Tree Model], 简 
称 MMT 模 型 ) 中 , 

根据 MMT 祺 型 ,我 国学 者 于 1981 年 进行 了 设 一 法 / 英 7 明 /7 俄 / 
德 多 谐 言 机 器 翻译 试验 ， 建 立 了 FAJRA 系 绕 ， 接 着 ,于 1985 年 允 
利用 IBM 一 43d41iF 算 机 ， 在 VMACMS 操 作 系统 下 ， 进 行 了 德 一 汉 
机 器 翻译 试验 和 法 一 议 机 器 翻译 试验 ， 建 立 了 GCAT 德 一 汉 机 器 
翻译 系统 和 FCAT МИЕ, АФЛ. $ 
ШЕШЕН ,建立 在 多 值 标记 函数 基础 上 的 MMTI 模 型 是 描述 汉语 句子 
结构 的 一 个 较 好 的 模型。 

Форж, ССр Ж Ж к ПНЕ БАЛУ ИТЕ», (+ АЛИ ЕЗИ»), 
198318, #20. 
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ФУН ЕНЕН Ж ДЁМА, PETRIE E A ЖЕ 
单元 性 的 认识 。 

单 值 标 记 冰 数 只 允许 一 个 结 点 一 个 标记 ， 台 А 
不 可 分 的 单元 ， 就 象 十 代 原 子 论 中 的 原子 一 样 。 当 我 们 采用 这 种 
单 值 标记 阔 数 来 对 自然 语言 作 自动 分 析 而 感到 左 支 右 续 、 进 退 维 
谷 的 有 时候， 我 们 管 经 想 过 ， 煞 这 衬 单 元 性 的 结 点 ， 是 不 是 也 是 可 
分 的 呢 ? 它 是 不 是 也 是 有 结构 的 呢 ? 在 现代 物理 学 中 关于 “原子 
无 恨 可 和 分 ”的 理论 的 启发 下 ， 我 人 把 树 形 图 中 的 一 个 全 缚 点 想象 
成 有 结构 前 、 由 多 种 特征 组 全 而 成 的 非 单 元 体 。 这 种 关于 语言 符 
导 非 单元 性 的 新 认识 ， 有 如 一 艺 洲 灯 ， 引 导 我 们 摆脱 了 进 遐 维 兴 
前 困境 ， 走 进 了 一 马 平 用 的 坦途 。 当 我 们 放弃 单 值 标 记 函 数 而 诀 ， 
ЖЕНИС ИНЕ, нт АВ 
REI RIKTE T a 

事 宣 证 明了 ， 语 言 符号 并 不 是 一 个 无 结构 的 单元 性 符号 ， 而 
是 一 个 有 结 攀 的 、 由 多 种 特征 组 合 而 成 的 非 单元 符号 。 我 们 工 立 
中 采用 多 标 记分 析 过 的 那些 语音 现象 ， 足 以 说 明 语 言 符号 的 这 种 
非 单 元 性 。 

语言 符号 的 这 称 非 单元 性 不 仅 存 在 于 句子 结构 中 ， 也 存在 于 
语音 中 。 早 在 1938 年 ,美国 语言 学 家 雅 可 布 进 (R. Jakobson) 在 出 
利 时 的 根 竺 城 举行 的 第 三 册 国 际 语音 学 会 议 上 ， 就 提出 了 能 否 以 
对 分 法 为 基础 来 分 解 元 音 、 辅 音 等 癌 юни, 1951 年 ， 他 在 与 . 
范 特 СМ. Fant), № (M. Halle) 等 语 溃 学 家 合 写 蕴 论文 :语音 
分 析 初 探 3 中 ， 归 出 了 对 分 法 现 论 以 及 区 别 竺 征 学 说 。 他 们 认为 ， 
一 切 语 音 的 音 《〈 无 论 元 音 或 辅音 ) 都 是 可 分 的 ， 可 以 报 据 它们 的 : 
生 更 的 或 声学 的 特性 ， 用 对 分 法 分 成 一 对 对 的 “最 小 对 立体 ” 
‘minimun pairs), in, GERERE WIR BRY, $ 
РОБ 8—07 рУ. EREA 
十 二 对 民 则 特征 〈distinetive features), AHH EREA 
语言 都 可 以 用 这 十 二 对 区 别 圣 证 加 以 撒 述 。 这 样 ， 过 去 一 直 认 为 
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不 可 分 的 单元 性 的 元 间 、 辅 音 就 变 起 由 莹 二 区划 特征 组 合 而 成 的 ， 
Ей. жЕ Т 

这 十 二 对 区 别 蛙 征 是 ， 

包 元 音 性 一 非 元 音 性 ， 如 8a 一 p。 

ОВЕ ЕВЕ, Mpa, 

ВЕЕ ПЕ, Him—p, nt, 

ОЯН, Mei, Жеш, О ОНЕ Ар, 发 
i 时 ， ВЕТА К, 

@ ЖЖ —-Ж ИЕ. Mpi, b—v, 

{ШБЕК —[Б Яй. 006—0, Б, AHIS Е Р 
Ову, Ж РЕЙД ОМИН. 

Qafa aE Wp o. Ap, ARRAMA 
ри, «Я, i 

ФРЕЕ, ШУу—1, b—p, 

ОЖК ЕЕ, Кв. ЖЕН}, EER- E Mya ЕЙ 
Б, ЖАЛ ЕК; ehh Tapa Er EPP БЕ 
ЖЕН MARHE. 

АРЕ 819 Е, wmn, лар, Й НО Go fee br E 
пн, ЖЕ С К 

ФИР ВЕ, Wu—i, Жолу, ШИН Т r ЫЙ 
1 КЕЕ ЕК Эй 59. 

BAHE- Fat ЖШа—Ч„ жа. 频谱 中 的 高 频 成 分 比 
Хав ЕИ, WH, Жа, а ЕИ, E 化 作 
Ж. 

ЗОВ ЕТ ЕЕН ВТЕ, 
HER- О В, MER E EARE Е ЭЕТ. WME Ë 
位 具有 二 项 对 立 中 的 前 巴特 征 ， 记 以 “十 ”号 ， 具 有 二 项 对 立 中 
的 后 项 圭 征 ， 记 以 “- ”号 。 这 样 ， 便 可 作为 一 个 矩阵 表 。 作 为 
对 每 一 音信 的 区 师 特 征集 合 的 畏 述 。 
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ЯЬ Et YEYE P Н ДА ЖЯ ARANA rh #k a 
ЮН, ТЕНДЕУ ЖЕЙ, 

ЖЕНГЕ NHA, (p> DDR ТА НЮ, ЖЕРТ 
现代 物理 学 的 影响 记 致 。 他 写 道 ,“ 语 音 学 分 析 及 其 得 出 的 、 涉 能 
青 行 分 解 的 音 位 特征 的 概念 ， 同 现代 物理 学 的 研究 成 果 有 惊人 的 
相同 之 处 ， 物 理学 也 下 替 明 ， 物 质 具有 短 子 状 结 谷 ， 因 为 它 是 由 
基本 粒子 构成 的 ”人 | 

нар НА Ар B, ОЗН ЭРЕ 
Ф Е АВЕ А ИК ЖЛЕ {ЛАП K, 4 T H АЛ Э 
Ti Wari ФА ЕШ Sm W АЖ K, ТЕ 312 BLR g 
OMAR ЕЛДЕ КОХ НЩ ЕСШЕ ЕЕ РАП 
在 联系 的 ， 认 识 事物 之 问 的 这 种 彬 他 性 ， 可 以 增进 我 们 迁 行 科学 
研究 的 才干 ， 赐 高 研究 工作 的 自觉 性 和 局 的 性 。 英 国 物理 学 家 法 
Ma (M. Faraday) 受到 他 的 老师 戴 绯 GE Davy) 把 化 学 能 转 
化 为 电能 ， 又 把 电能 转化 为 化 学 能 的 可 道 过 程 的 和 启发 ， 立 志 要 把 
已 发 现 的 由 电 生 磁 现象 逆转 为 册 灰 生 电 ， 经 过 妨 年 的 努力 ， 终 于 
实现 了 出 磁 生 昌 的 实验 ， 建 立 了 电 蕉 感应 学 说 的 完整 理论 。 正 是 
这 种 难于 事物 之 间 存 在 相似 性 的 信念 ， 便 我们 提出 了 反 句 请 言 符 
ЭЗЕЛИ “Жи” 的 概念 ， 并 进而 建立 了 中 文 信息 处 理 的 
ММ, 

在 汉语 句子 的 自动 分 析 中 ， 我 们 是 用 非 草 元 性 的 特征 的 组 全 
来 代替 单元 性 的 半 值 标记 的 。 这 种 非 音 元 性 的 特征 组 台 ， 可 通过 
МЕН" КАЕТ. зх ЕМЕА, ШЕ 
ЖЯ, БАЕН Y £ Та ВАЗН у (Vi, Шз, сез , 
yj} 究 竞 应 取 些 什么 样 的 标记 。 

我 们 在 描述 上 面 的 汉语 甸子 时 ， 是 梁 用 车 干 个 特征 和 它们 的 
仿 来 进行 描述 的 汉语 的 多 标记 系统 包含 若干 个 特征 ， 而 每 一 个 


@ R. Jakobson, Оп tha identification ој phoneme entities, 
TCLP, Vol. V, 1949, 321338, 
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BEES AJ, KAR ER ERER REIER 2, 
Uk SW ЯЙ. GA AACA МЕЛА" Rii 
诺言 不 同 ， 它 们 的 и отини, 

ТАНУ ЧЕЛИ” s. SG nn 

1. 词 类 特征 和 它 的 值 ， 

词 半 是 描 II E s H] 的 一 个 EARE, 在 得 诸 结 构 语 洪 中 ， 
词类 足 常 用 的 单 值 标 启 ， 而 症 MMT 模 型 中 , 它 只 是 多 标记 中 的 一 
种 标记 ， 记 为 CAT。 

AI 可 取 如 下 的 值 ， 当 词 、 处 所 词 、 方 位 词 、 区 唱词 а, 
EE. ЖЫКЫ, ИНИ, ШИ], ЖЭ, МЇ, ДГ, 
EE, Юн, ШТ, ШШЕ], RRE. 

Г Н, {ЛӨӨ ISO 3 AREA … 个 词 
6, к, ERANA, ШӘҢЕСАТИГИЛОЛУ1й„ 

Л ШЕ u Б НЕНТ, ВЕТВЬ Je hye. ВИЩ. 
独 语 的 形容 六 可 以 再 分 为 状态 形容 词 油 往 质 形容 词 西 个 次 类 。 也 
碾 是 说 ， 形 客 词 这 个 依 到 可 再 取 状 态 形 容 记 和 竹 质 形容 词 商 个 子 
人 逢 。 特 征 的 值 及 其 子 值 ， 可 以 看 成 是 次 一 级 的 “特征 / 值 ” 假 对， 
ЖЕГЕ {& ЖЮК —Ж “ИШ ЛШ” А] ЕР ВЕ, ТЕЛИК 
ЧАО EEE RA PRE ЖЕ? qe ETIS), 
在 “特征 / 信 ” 偶 对 中 的 “ 值 ”本 身 ， 也 可 以 是 一 个 次 一 级 的 “ 转 
ЕЛАВЕ. 

2. 词 组 类 型 特征 和 它 的 值 ; 


词组 类 型 特征 是 描述 汉 活 指 另 -个 特征 ， 记 为 天 。 在 短语 结 ` 


徇 语法 中 ， 它 也 是 常用 的 单 标记， 但 赤 同 … 个 绪 点 上 ， 它 不 能 与 
词 区 标记 闪存。 在 MMNT 模 型 中 ， 它 只是 多 标记 中 的 一 秘 标 记 。 
K 的 值 可 取 ， 动 词 词组 、 和 名 词 词组 、 形 容 词 词组 ,数量 词组 
共 4 个 。 
我 们 把 传统 语法 申 的 介词 词组 并 入 名 词 词组 ， 因 为 从 自然 语 
ВЯЛА, ТТР, З ЕАН 
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面 的 名 词 词组 的 功能 的 一 种 标 态 ， 并 入 名 词 词组 处 理 更 为 方便 。 

3. 单 词 的 国有 语义 特征 和 它 的 值 ; 

单词 的 固有 话 义 特征 ， 就 是 单词 的 语义 类 别 ， 它 表示 的 是 狐 
立 的 单词 的 语义 ， 而 不 是 单词 与 单词 之 间 的 语义 关系 。 单 词 的 恩 
有 语义 特征 ， 记 为 SEM。 

SEM RUT HERTE: 

HR MOTI SB p. TER, MAM, ЖЛЕ Ж 

Hi ЖТИ, mih ШЫЙ. 

HR: CTA 2DB SS. ALHS, HAAR, HBAR. 

时 空 ， 其 了 予 值 为 时 间 、 空 间 ， 

测度 ， 其 子 信 为 数量 、 单 位 、 标 准 。 

抽象 ， 其 子 值 为 学 问 、 概 念 、 符 号 。 

属性 ， 其 子 值 为 性 质 、 有 形状 、 关 系 、 结 构 。 

行动 ， 其 子 值 为 行为 、 动 作 、 操 作 。 

JAE E A ЗЕ КИЕ ЖУ ЖЕТЕЛЕ ЖИДЕ ЖЫН Б ar ЕЙ ИЙ] ЕЛИ, 
RARESA REEE, 

4- 单 词 的 固有 请 法 特征 和 它 的 值 ; 

扳 立 的 单词 也 具有 语法 特征 。 例 如 ， 不 园 的 名 词 襄 求 不 同 的 
量词 ， 因 此 ， 带 量词 特征 ， 就 是 名 词 的 固有 语法 特征 :不同 的 动 
HRT, Kik, AHERENI ARARA RE PE 
动词 的 “ 价 ”(valence) ЖДО), ИҢ, “r 就 是 动词 的 另 
一 个 轩 有 语法 尾 征 ，“ 价 ”反映 了 动词 对 其 前 后 词语 的 要求 , 但 
它 是 荔 词 本 身 的 属性 ， 因 此 ， 我 们 把 它 着 成 是 动词 的 天 有 语法 特 
征 。 

单词 的 为 有 语法 特征 记 为 GRM。 

这 样 的 语法 特征 的 值 也 可 以 具有 子 值 ， 这 时 ， 我 们 可 以 把 秆 
和 它 的 于 值 作为 “特征 / 值 ? 偶 对 来 处 理 。 例 如， 动词 的 辕 有 语法 
蛙 征 的 及 物性 这 个 值 具 有 两 个 子 值 ,及 物 ” 和 “不 及 物 " ,我们 可 
把 及 狗 性 看 成 特征 ， 把 及 物 和 不 及 物 这 两 个 子 佳 看 成 它 的 这 个 特 
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AC ЇЙ WLELRSITHELBUTRANS=TVRITRANS=Q=IV3E ЖЕ, 
正 是 这 样 来 处 理 的 。 

“ 价 * 也 可 以 取 子 值 ， 一 芥 、 二 价 ， 三 价 。 一 价 动词 具 能 有 一 
AER, Шоо”, 二 价 动词 可 以 有 一 个 主语 和 一 个 宾语 ， 如 
“з”, 三 价 动 词 可 以 有 一 个 主语 、 一 个 直接 宾语 ,一 个 间接 宾语 。 

由 于 现代 汉语 中 的 词组 类 型 和 句法 功能 之 间 没有 明确 的 一 一 
对 应 关系 ， 它 们 之 间 的 关系 极为 错 综 复 染 ， 因 此 ， 在 汉语 句子 的 
自动 分 祈 中 ， 必 须 注 意 名 法 功能 特征 。 这 些 特征 都 是 在 甸子 的 自 
动 分 析 中 产生 的 ， 而 不 是 单词 或 河 组 本 身 固有 的 ， 它 们 不 能 前 接 
记 在 机 器 词典 中 。 汉 语 中 各 子 给 成 成 分 的 句法 功能 特征 记 为 SF。 

SF 可 取 如 下 的 值 ， 主 语 、 请 语 、 定 语 、 状 语 、 补 语 、 述 话 ， 
中 心 语 。 

SF 的 入 可 以 有 子 慎 。 例 如 ， 宾 语 这 个 值 可 以 有 直接 宾语 和 问 
PREDATE. 

6 ,语义 关系 特征 ; 

语义 关系 特征 也 不 是 单词 本 身 固 有 的 ， 而 是 在 计算 机 自动 进 
行 名 法 语义 分 析 的 过 程 中 道 过 运算 得 出 的 ， 孤 立 的 单词 谈 不 上 语 
义 关 系 ， 具 有 两 个 或 两 个 以 上 的 单词 或 词组 才 会 产生 语义 关系 。 
语义 关系 特征 记 为 SM。 

SM 可 到 如 下 的 值 ， 施 事 、 受 事 、 与 事 、 关 涉 ， 上 时刻. 时段， 
HAEA HRAS, ZRA, SHE, SARA, SIRS, 
PA ЖЕ. БИ, ЫЕ, ТА, FA, НА, Ж. PEB. Н 
3. WIB. БШ, е, ЕВЕ, ЭИ, K, Mm 

SM 的 各 个 值 还 可 以 分 得 更 细 ， 这 样 每 个 全 还 可 以 秃 取 子 信 。 

7 .地 辑 关 系 特 征 ， 

可 果 把 汉语 的 句子 看 成 一 个 逻辑 命 王 ， 那 么 ， 在 退 辑 合 题 的 
谓词 与 它 的 务 个 主 目 语 〈《argumephts》 之 间 还 存在 着 还 辑 关系 。 由 
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+R АПШ И Е B WEB РНЕ НА aii ЖЕ ЛОН Р, A 
ТЕА, АИ УАВ 52 НББ НЕК, 
ЭХ ЖР ЭЗ ЖОЙ ЕНЕ И ЛЕ ЕРЕ е а Ву “20 
关系 ” (8 relation), 28266 НІВ, 
LR 的 值 如 下 ， 
主 月 请 4， 它 是 句子 的 深 居 主语 
主 目 语 1， 它 是 句子 前 深 必 直接 宾语 
主 目 语 2， 它 是 句子 的 深层 间接 宾语 。 
迎 邯 关系 特征 的 值 一 般 没有 子 什 。 
每 一 个 主 由 语 均 起 一 个 题 元 作用 ,而 且 只 能 起 一 个 题 元 作 
用 # 每 个 题 元 作用 均 由 一 个 主 目 语 来 充当 ， 而 县 只 能 由 一 个 主 昌 
语 米 充当 。 因 此 ， 可 以 根据 主 目 语 的 情况 来 检验 所 处 理 的 句子 在 
逻辑 关系 的 分 析 上 是 否 正确 ， 灌 旦 揭示 出 整个 句子 的 罗 辑 结构 。 
上 面 列 出 的 汉语 的 “特征 / 信 " 系 统 ， 还 不 十 分 完善 ， 有 竺 在 
实践 中 进一步 补充 。 
用 这 样 的 “特征 / 值 ”系统 ,我 们 把 树 形 图 中 药 一 个 单元 注 的 
结 碟 分 解 为 非 单元 性 的 特征 的 组 合 ， 使 单 标记 的 树 形 图 改造 成 为 
多 标记 的 树 形 图 ， 大 大 地 拓 广 了 树 形 图 囊 达 语言 信息 的 能 力 。 这 
是 语言 符号 的 非 单 元 福 这 一 原理 在 投 语 甸 子 自动 分 析 中 前 体现 。 
在 上 面 所 列举 的 各 类 特征 中 ， 词 类 特征 、 单 词 的 固有 语法 特 
征 、 单 词 的 国有 语义 特征 都 是 可 以 在 词典 中 独立 地 给 出 来 的 ， 它 
们 是 单词 本 身 固 有 的 特征 ， 我 们 把 它们 叫做 静态 特征 《statie 
features)。 而 词组 类 型 特征 、 条 法 功能 特征 、 语 义 关系 特征 ， 惧 
辑 关 系 畦 征 并 不 能 用 示 单 词 本 身 MAARE, ENARA 
之 间 发 生 联 系 时 才 产 生出 来 的 特征 ， 我 们 把 它们 冉 乞 动态 特征 
Cdynamic features), 
在 自动 名 法 庄 义 分 析 中 ,静态 特征 是 计算 机 进行 运算 的 基础 ， 
计算 机 依赖 于 这 些 棉 先 在 词典 中 纷 出 的 静态 特征 ， 通 过 有 穷 步 返 
算 ， 乏 步 算出 各 种 动态 特征 ， 从 而 逐步 痢 清 楚 汉 语句 子 中 各 个 冉 
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言 成 分 之 间 的 关系 ， 达 到 自动 句法 语义 分 析 的 目的 。 

在 各 种 这 访 特征 中 ， 词 组 类 型 特征 是 最 容易 运算 来 出 的 。 一 
规 根 据 树 形 园 中 某 个 结 点 的 直接 后 斋 的 词类 特征 、 单 词 的 加 有 请 
法 特征 及 单词 的 国有 语义 特征 等 信息 ， 就 不 难 推算 出 该 缚 点 的 记 
组 类 型 特征 。 名 法 功能 特征 则 要 通过 更 广 泛 的 上 下 文 信息 才能 推 
算 求 出 ， 而 语义 关系 特征 及 逻辑 关系 特征 则 是 最 难 求 出 的 ， 往 往 
不 是 一 比 求 出 ， 而 是 要 通过 许多 步 的 演绎 和 推理， 才 有 可 能 推算 
出 来 。 固 此， 如何 根据 各 种 带 态 特征 扶 算 出 动态 特征 ， 便 旦 汉语 
自动 分 析 的 关键 所 在 。 汉 语 语法 和 语义 的 研究 应 该 为 这 方面 的 工 
作 提 供出 有 效 的 规则 ， 在 这 个 领域 中 ， 非 常 需要 语言 学 家 、 数 学 
察 和 计算 机 专家 的 通力 协作 。 

一 般 地 说 ， 汉 语句 子 的 自动 分 析 ， 应 当 包 含 如 下 的 步骤 。 

1 .对答 入 的 汉语 名 子 进行 自动 切 分 ， 确 定单 词 与 单词 之 间 的 
界限 。 

2, 在 词典 中 查 出 甸子 中 各 个 单词 的 静态 特征 。 

3. 根 据 语法 规则 和 语义 规则 ， 检 埋 这 些 静 态 特 征 的 相 容 性 ， 
把 静态 特征 相 容 的 单词 结合 成 词组 。 

4 .根据 语法 规则 和 语义 规则 ， 由 静态 特征 和 词组 类 玲 特 征 出 
发 ， 计 算出 句法 功能 特征 ， 并 进一步 计算 当 语 义 关 系 特征 和 逻辑 
关系 特征 。 

在 窒 查 静态 特征 的 要 容 性 以 及 由 静态 特征 计算 动 坊 特征 时 ， 
如 时 两 个 特征 不 相 容 ， 则 不 能 进行 运算 ， 运 算 失 政 ， 加 果 两 个 特 
征 相 容 ， 则 根据 有 关 的 语法 和 语义 规则 进行 运算 。 由 于 在 特征 不 
想 冲 突 时 就 可 以 对 特征 进行 运算 ， 由 运算 而 得 出 的 特征 信息 必然 
不 断 增多 ,甸子 各 个 组 成 成 分 所 包含 的 特征 越 米 越 丰 宜 ， 最 后 求 
出 的 各 种 特征 就 能 比较 全 面 地 反映 汉语 句 于 的 性 质 。 

汉语 的 自动 生成 过程 与 此 相反 。 在 从 外 语 到 汉语 的 机 器 翻译 
P, 一般 是 根据 妇 语 分 析 得 到 的 有 关 句 法 功能 、 语 义 关系 、 逐 辑 
关系 的 特征 ， 并 根据 欠 汉 双语 言 机 器 词典 中 提供 的 有 关 讽 语 单 词 
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语言 符号 的 这 种 非 单 元 性 ， 也 就 是 语言 符号 特征 的 复杂 性 。 
索 线 尔 在 1916 年 出 版 的 * 警 通 语音 学 教程 ?中 早 就 指 册 ,“ 语 言 可 以 
说 是 -- 种 只 有 复杂 项 的 代数 “中 他 举 出 德语 中 名词 数 的 变化 
Nacht ( 夜 ， 单数 )，Nichte Gk, RAD 来 说 遇 这 个 论点 。 他 计 
为 ，Nacht:Nichte 这 个 语法 事实 可 以 用 ab 这 一 符号 来 代表 ， 但 
是 ， 其 中 的 a、b 都 不 是 简单 项 而 是 复杂 项 ， 它 分 别 从 局 于 一 定 的 
系统 之 下 。Nacht 有 名 词 . 阴 性 、 单 数 .主格 等 特征 , 它 的 主要 元 音 
Ма, Nächte gii, И. К. НАНЕ, ЕАУ 
i， 结 尾 加 了 e，eh 的 谈 音 从 /xy 变 为 /2&/。 这 样 ， 就 可 以 形成 许多 
对 立 ， 所 以 叫做 复 染 项 。 每 个 符号 弧 立 地 看 ,可 以 认为 是 简单 项 ， 
-但 是 从 整 民 来 看 ， 刚 都 是 复 罗 项 。 索 绪 尔 指出 ; “语言 的 实际 情况 
使 我 们 无 论 从 哪 一 方面 去 进行 研究 ， 都 找 不 到 简单 的 东西 ; 随时 
MERERI E W ANER HERPA OTT, RE 
尔 早 就 提出 了 要 用 “复杂 项 ”来 搞 可 语音 的 观点 ， 他 所 说 的 “ 揽 
杂项 * ,就 是 我 们 现在 所 说 的 “多 标记 ”, 它 们 都 体现 了 语言 符号 的 
非 单元 性 。 索 结 尔 真 不 必 是 一 位 不 眼 独 具 的 学 者 ， 可 异 好 的 这 一 
卓越 思想 并 没有 得 到 后 世 语 言 学 家 的 重视 。 号 称 继 承 了 索 绪 尔 结 
构 主 义 语言 学 思想 的 美国 描写 语 育 学 派 ， 在 他 们 提出 的 “直接 成 
分 分 析 潜 ”中 ， 只 采用 简单 标记 来 描述 句子 ， 而 在 乔 姆 斯 基 的 但 
语 结构 语法 中 ， 则 更 是 明确 地 用 “ 单 标 记 ” 案 描述 句子 。 现 在 ， 
当 我 们 用 上扬 语 结 榴 语 法 对 自然 说 言 进行 计算 机 处 理 遇 到 重重 昌 难 
П ШКХ, ЖИА ЛЕШ RAT у” 
REI RIET h REMERA EELE. ERE, 
RANE EAER SAA TARE ИШИНЕ ИПИЕ ЖНА ЕНШ 

Ф 索 续 尔 ,< 普通 语言 学 教程 ,中 译本 ,商务 印 书 销 ,1980 年 ,所 169 页 。 


2 ” 索 绻 尔 ，* 普 通 河 言 学 教程 ;， 中 译本 ， 离 务 印 书馆 ,1980 华 ,第 189 
页 。 
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到 的 祥 种 问题 ， 正 三 从 索 绊 尔 关于 “复杂 项 ”的 思想 中 得 到 启示 ， 
Жн PRR A FARRER HAS. ШЕТИН 
语言 学 的 基础 理论 对 于 自 热 语言 计算 机 处 理 研究 实践 МН s Е 
x. 


第 2 节 复杂 特征 的 运 


就 在 中 国语 言 学 者 提出 MT 模型 的 同时 ,国外 一 些 计算 语言 
学 家 也 看 到 了 乔 姆 斯 基 短 语 结构 语法 的 局 限 性 ， 纷 纷 提 出 各 种 卑 
段 过 限制 短语 结 移 语法 的 过 强 的 生成 能 力 ， 来 提高 短语 结构 语法 
的 有 限 的 分 析 能 力 。 这 些 手段 中 ， 时 为 有 效 的 就 是 “复杂 特征 ” 
(complex features) 和 “和合 一 ” CKunification), 

SERAK, ВАСА СУУ. Woods) 的 “扩充 转移 网 络 ” 
CAngmented Transition Network, АТМ ЛО, Efir 
斯 南 O. Bresnan) ЗР ИС ВОЗЕ РАНЕ ЗЕ 思想 的 激励 之 
F, PEZ QR. Карал) 和 布 列 斯 南 一 起 ， 于 1983 年 提出 了 “ 词 
汇 功 能 语法 ” (Lexical-functional Grammar, ЕС), 
Т. (Martin Кау) 于 1983 年 提出 了 “ 合 一 语 法 ”Unifica- 
tion Grammar， 简 称 LFG)， 于 1985 年 提出 了 “功能 合 -~ 语法 ” 
(Functional Unificational Gramimar， 简 称 FUG ?外 。 这 些 语 法 


都 采用 了 “复杂 特征 结 构 "， 而 “ 合 一 ”就 是 对 复杂 特征 进行 运算 


@ W. Wood, Tansition Network grammar for natural languags 
analyris, «Communication of the ACM>, 13010), 1970 

@ Е. kaplan, J. Bresnan, Lexical-junctional grammar. А 
formal system for grammatical representation, ir ¿The 
Mental Represen tation of Grammatical Relations», 1983. 

@ M. Kay, Parsing in functional unification grammar, in 
«Машка Language Parsing, Psychological, Computational 
and Theoretical Perspectiyess ,1985, 
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的 方法 。 

Жу. (А. Colmerauer》 于 1970 征 独立 地 研制 了 QQ- 系 
Hi (Q-system)， 双 于 1978 年 提出 了 “变形 语 法” (Metamor- 
Phosis Grammar)， 把 它们 作为 自然 语言 处 于 前 工具 。 在 逻辑 程 
序 设计 方面 ， 佩 瑞 拉 (Р. Pereira) 和 瓦楞 (D. Warren) 于 1980 
年 提出 了 “定子 名 语 法 *” (Definite Clause Grammar) 简称 
DCG)， 这 种 语法 是 在 柯 尔 迈 洛 埃 旱 期 形式 语法 的 研究 也 及 程 Р 
设计 语言 Prolog 萄 工作 的 基础 上 研制 而 成 的 。 在 独立 的 逮 辑 程序 
设计 工作 中 ， 这 种 “定子 名 语法 ?已 成 为 许多 立足 于 “复杂 特征 ” 
和 “ 合 一 ”运算 的 形式 化 方法 的 基础 ， 例如 ，“ 移 位 ” 《extra- 
position), “JE” (5100) 和 “间隔 语法 ” (Gapping Grammary 
а, интен ERRE иан, 

THEG. Gazdar), ИВ (Е. Klein), $b 38 (1. Sag) 
КО. Puilum) 等 人 于 1985 年 提出 了 “广义 短语 结构 语法 ” 
(Generalized phrase Structure Grammar, 简称 人 PSG 全 ,这 种 
语法 以 短语 结构 语法 作为 基础 ， 采 用 “特征 / 值 "系统 来 描述 句子 ， 
在 这 种 “ 峙 征 / 值 "系统 中 ， 嗓 包括 简 音 特征， 也 包括 党 末 特 征 ， 
这 就 在 很 大 程度 上 ， 波 制 了 短语 结构 语法 过 强 的 生成 能 为 。 在 他 
们 最 近 的 研究 工作 中 ， 也 引进 了 “会 一 ”来 进行 复杂 特征 的 运算 。 
311798 (С. Pollard) 于 1984 年 在 他 的 博士 论 交 中 ， 提 圭 了 “中 心 
词 诺 法 ” (Head Grammar)9 ， 其 理论 基础 之 一 就 是 “广义 得 请 
畦 构 语法 ”中 的 “ 笑 征 / 值 ? 系 统 ，1985 年 , 百 拉 德 和 他 的 同事 们 又 


(b F. Pereira, P. Warren, Definite Clausa grammar for langu- 
аве analysis -- А ѕиғреу of tha formalism and a compi- 
rison witi augmented transition networks, «Artificial 
Intelligence», 1980, 

© G. Gardar, E. Klein, G. Pullum, І. Sag, ,Generolized phrase 
Structure Grammar, 1985. 

@ С. Pollard, Generalized phrase siructure grammar, head 
grammar, and natural languages, Doctoral dissertation, 
1884. 
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提 昌 了 “中 心 词 驱 动 的 篇 MAKER” Gead-driven Phrase 
Structure Grammar, ##RHPSG)2 。 这 程 语法 是 “广义 短语 结 
构思 法 ”和 “中 心计 语法 ”的 进一步 发 展 ， 也 采用 了 “复杂 特征 * 
和 和“ 合 一 "运算 。 

级 观 计 算 证 言 党 的 发 展 历 史 可 以 看 出， 我 国学 者 在 1981 年 所 
当 的 MMT 模 型 .是 批 界 各 力学 者 对 传统 的 旨 语 结构 语法 进行 政 进 
的 一 个 重要 方面 和 不 可 分 割 的 组 成 部 分 。“ 多 标记 ”的 概念 也 襄 
是 “复杂 特征 ”的 概念 ， 它 是 80 年 代 计 算 语言 学 形式 化 方法 的 一 
个 有 力 的 工具 。80 年 代 以 来 的 计算 语言 学 ， 在 关键 性 的 地 方 都 使 
用 了 基于 “复杂 特征 " 的“ 合 一 * 运 算 方 法 ， 可 以 说 ， “复杂 特征 "的 
概念 ， 是 当代 计算 语言 学 的 一 个 关 健 性 概念 ， 它 反映 了 计算 机 时 
代 人 们 对 语言 符号 前 非 音 元 性 的 认识 进一步 深化 了 。 

复杂 特征 的 运算 夹 采 用 数理 逻辑 中 “ 合 一 "运算 的 方法 ， 语 言 
符号 的 非 单元 性 便 与 狼 理 逻 几 发 生 了 联系 。 

“全 一 "这 个 术语 景 初 是 在 数理 田 辑 中 前 一 阶 谓词 省 筑 开 始 全 
用 的 。 马 丁 * 凯 依 的 “功能 人 台 一 语法 ?， 在 名 称 上 和 冠 以 了 “ 合 一 ”的 
字 限 儿 ， 因 此 ， 我 们 通过 对 “功能 合 一 语法 ”的 介绍 ， 便 不 难 理 解 
“ 合 一 运算 在 语言 学 中 的 实际 运用 首 襄 。 

马丁 " 凯 依 于 1985 年 在 “ 切 能 人 台 一 语法 ?这 一 新 的 语法 理论 中 ， 
提出 了 "复杂 特征 集 ” (complex feature set 的 概念 。 他 认为 ， 
上 自然 语言 是 一 个 效率 极 高 癌 时 又 能 够 精确 地 裘 达 各 种 意念 的 信息 
系统 ， 人 忆 内 用 弄 姆 斯 基 的 短语 结构 语法 中 的 单 标记 的 句法 范 酶 不 
可 能 充分 邮 播 述 自 然 说 言 的 句子 结 鬼 。 而 必须 合用 复杂 特征 集 求 
шж. © 
Ф D. Proudian, С. Poliard, Parsing head-driven Phrase Sirue- 


ture grammar, in «Proceedings of the 23rd Annual Meet- 
ing of the Association for Computational Linguistics», 


1885. 
@ RAT. С ВИЕ ВАО id api s, (сорт pan ЛІГ y, 1989 
т, ЖОЙ. 
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Б Эн WF ЖЕН ЭЙ Ж (Functional Description, ЕРУ 
Жуй. И ДАРО ШЖ Cdeseriptors Hi R, ПЇЇЙ— 
个 描述 元 则 是 一 个 成 分 集 (constituent ве?) —4- Из (Pattern) 
或 一 个 带 值 的 赂 性 (attribute) ,其 中 最 主要 的 是 * 局 和 乌 / 值 * 偶 对 。 
在 功能 描述 ED 中 ， 描 述 元 的 值 可 以 是 康子 ,也 可 以 是 另 一 个 功能 
描述 FD。 质 以 ， 功 能 拱 述 是 递归 地 定义 的 。 

下 面 给 出 表示 复杂 特征 集 的 功能 播 述 的 数学 定义 ， 

为 一 个 功能 描述 FD， 当 且 仅 当 9 可 起 示 为 


| 
f. =U, n=l 
Lf=r, i 


Қ, FERREA, ARPER HE 满足 如 下 条 件 ， 

© 特征 名 记 为 原子 ， 和 将 征 值 vi 或 为 磺 子 ， 或 为 另 一 个 功能 
描述 FD， 

@ a<cfiy =u, (I=1, =, n) 
BE: Жош, RER KETO 

采用 这 禄 的 功能 描述 ， 训 可 以 束 示 复杂 特征 集 。 

组 成 功能 描述 EBP 菌 一 组 描述 元 都 号 在 一 个 方 插 号 里 ,书号 此 
显 序 无 关 紧 异 。 硅 一 个 “属性 / 值 " 偶 对 中 ， 必 性 是 一 个 符 导 ， ЖШ 
NUMBHER( 数 )、SUBJ (主语 )、QBJE (宾语 )、MODF (修饰 
Ж), TEAD( 中 心 证 ) 等 ， 它 的 值 或 者 是 一 个 符号 ， 或 者 是 另外 
一 个 切 能 描述 FED， 属性 和 它 的 值 之 癌 用 等 导 来 连接 ， 因 此 ,a =b 
ліан, 

例如 ， 英 语句 子 Wwe helped her СТ УНГ CI) 
BUR КОЛЕВ SED Е, 
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(FD1), f K=S q 


I CAT = PRON cl | 
| CASE = NOM 

SUBJ= | NUMBER = PLUR 
PERSON=FIRST | 


[ САТ -PRON ~] 
GENDER = FEM 
CASE = АСС 
NUMBER = SING 
| PERSON = THIRD 


ОВЈЕ = 


САТ = VERDI 
LEX = ‘help’ 
TENSE = PAST 
Paai = ACTIVE 
L 2] 

КАРВЕР helped Һе" RAAF (K =S), 在 
这 个 句子 中 ， 主 语 “we" 是 代词 、 主 格 、 复 数 、 第 -- 人 f, ЕЮ 
“Һе ИЮ, ШЕ, ЖЕ, МЖЖ, ЖАЛ, 谓语 “helped" 是 动 
i, RERNE help”, S&T AJB ЕНЕН, ШЕШ 
хо ИЕЛДЕ Ж ЖОХЛ ИР ЕЕ de ЕШ ЖШ. 

在 一 个 功能 描述 FD 中 ， 每 一 个 “ 属 福 / 值 " 偶 对 都 是 该 FD 所 
描述 对 象 中 的 一 个 特征 。 如 时 这 个 值 是 一 个 符 导 ， 那 么 ,这 个 “ 属 
性 / 值 " 偶 对 就 叫 散 功能 描述 FD 的 一 个 基本 特征 。 任 何 功 能 描述 
FD 都 可 以 用 一 张 由 基本 特征 组 成 的 宕 来 表示 。 同 如 ,上 面 的 功能 
瓜 述 FDC1) 也 可 以 用 下 面 的 表 FD (2) 来 描述 ， 

FD¿C2) <K> = 8 
《SUDBJ САТУ = РКОМХ 
《SUBJ CASE) = МОМ 


PRED -| 


“?14* 


<SUBJ NUMBER) = PLUR 

<SUBJ PERSON) = FIRST 

<OBJE САТ» = РКОМ 

《OBJE GENDER) = РЕМ 

¿OBJE CASE》 = АСС 

‹ОВЈЕ NUMBER> = SING 

‹ОВЈЕ PERSON) = THIRD 

<PRED САТ) = VERB 

<PRED ТЕХ) = ‘help’ 

<TENSE>) = PAST 

¿VOICE> = ACTIVE 

在 这 个 表 FDt2) E, RRE. 》 里 的 符号 构成 了 一 -条 路 均 
《Pat)， 功 能 描述 FD 中 的 每 一 个 值 ， Б Д ИЕ 
它 。 可 以 看 出 ，PFD(2) 中 于 过 的 特征 与 RD) 中 表达 的 特征 是 相 
邮 的 ， 它 们 是 同一 个 甸子 中 的 复杂 特征 前 不 同 的 表达 方式 ,不 过 ， 
尽管 FDC1) 和 和 PDC2) 都 是 同一 功能 描述 FD 的 两 种 表示 , 它们 还 各 
有 不 同 ，FDP(1) 显 东 了 功能 描述 的 腾 套 ， 因 而 台 调 了 功能 措 述 的 
结构 特性 ，FD(2) 是 一 个 表 ， 思 而 强调 了 功能 描述 的 内 部 分 量 特 
性 。 这 两 种 表示 方法 都 有 意 模 类 了 特征 和 结构 之 间 的 通常 区 别 ， 
使 得 功能 合 一 诺 法 具有 更 大 的 灵活 性 ,我 们 在 MMT 模 型 中 对 复杂 
特征 的 表示 方法 ,与 这 里 的 FDC2) 比 较 接 近 ， 因 为 MMT 模 型 对 于 
结 宰 层次 的 描述 ， 是 通过 多 及 树 来 表示 的 ， 所 以 ， 在 只 捕 述 名 于 
的 代数 值 前 复杂 特 证 中 ， 就 没有 必要 再 强调 结构 特性 的 描述 了 。 
把 马 能 描述 者 作 是 非 结构 性 葛 特 征集 ， 就 有 可 能 用 和 集合 论 的 

标准 运算 来 处 理 它们 。 但 是 ， 功 能 描述 又 不 能 完全 服从 集合 论 的 
运算 。 集 合 论 运算 ~- 般 并 不 考虑 运算 对 象 的 相 容 人 性， 而 功能 描述 
则 必须 考虑 运算 对 象 的 相 容 性 。 如 果 有 两 个 功能 描述 中 都 包含 一 
个 共同 的 属性 ， 而 这 个 共同 属性 在 这 两 个 功能 描述 中 前 值 (可 以 
是 符号 ， 也 可 以 是 另外 的 功能 描述 FD) 不 相同 ， 那 么 ,这 两 个 功 
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能 描述 就 是 不 相 上 容 的 。 情 如 ， 如 果 功 能 描述 Pl 中 含有 基本 特征 
<А) = x, 功能 描述 FE2 中 含有 基本 特征 (4 = РА, ВЕ: =, 
Т, РРА, ОР АЕА, ЗА, 在 进行 
集合 论 中 的 “并 ”运算 时 ， 运 算 的 绪 果 就 不 会 是 一 个 各 格 的 功能 
描述 。 例 如 ,假定 功能 描述 FI 所 描述 的 句子 中 含有 一 个 单 煌 主 诺 ， 
而 功能 描述 F2 记 描述 的 句子 中 全 有 一 个 复数 主语 ， 那 么 ， WASI 
和 82 是 它们 相应 的 基本 特征 集 ， 它们 的 并 集 S1 U 52 就 是 不 合格 
的 ， HAERA t, (SUBJ NUMBER) = SING 和 (SUBJ 
NUMBER) =PLUR 不 相 容 。 

对 于 语法 上 有 歧义 的 句子 或 词组 ， 需 要 两 个 或 两 个 以 二 的 不 
租 容 的 蕊 能 描述 来 表示 。 例 如 ，“ 三 个 学 校 的 实验 员 米 了 ”这 个 
名 子 是 有 歧 文 的 ， 它 有 两 个 不 同 的 意思 。 一 个 痢 患 可 用 功能 措 述 
ED(3) 来 表示 ， 另 一 个 意 轩 可 用 功能 描述 RD(Cd4) 来 表示 ， 


FKD F K=S 局 
[С CAT=N ч 
HEAD = :实验 员 ， 
SUBJ = морғ = 人 和 人 ] 
HEAD = “232 ' 
1 
|. QUANT= 3 " 
PRED = 来， 
ТЕМЅЕ = РАЅТ 
| VOICE = АСТІҮЕ 2 


ИЩ, ЖЕ0(3) 中 ， 旬 子 的 意思 是 只 来 了 3 个 实验 员 ， 
而 这 3 个 实验 员 是 学 校 的 实验 员 ， 在 FDC4) 中 ， 和 甸子 的 意思 是 来 
了 一 些 实验 员 ， 而 这 些 实验 员 分 属 3 个 不 同 的 学 校 。 

几 个 不 相 容 的 简单 的 功能 描述 FD，F1，…，F;, 可 以 合并 成 
一 个 单独 的 复杂 的 动 稻 描述 FD，{F)…，Fi}， 复杂 的 功能 找 述 
表示 分 量 的 对 象 集 的 并 ， 其 中 的 不 要 容 部 分 ， 应 用 花 括号 插 起 来 
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FDU) [7 K=S 7 


Гг CAT=N l 
HEAD = :实验 员 ， | 
SUBI= FCAT=N 

”MODEF =! HEAD=' 学 校 ， | | 

| QUANT= 3 J 
PRED = 来， | 
TENSE = PAST | 
| VOICE = ACTIVE К 


下 面 是 把 FDCG3) 和 FDC4) 合 并 而 成 的 复杂 的 功能 描述 FD(5), 它 搞 
ATEK AFD) 记分 别 表示 的 两 种 结构 关系 ， 


РС) ГК=5 сол 
[7 CAT=N 
HEAD = :实验 员 ” `1 
Г САТ=М 
МОРЕ =| HEAD- «гере | | 
SUBJ= 
L QUANT= 3 J 
ГГ CAT=N ч 4 
море =| HEAD = 学校， | | 
L LQUANT=3 J JJ 
PRED = *ж' 
TENSE = PAST 
L- VOICE = ACTIVE J 


FDG YP AEM S КӘНЕ BJ WE ЗН РОУ Rb Ez IB 
的 析 了 到 关系 。 肌 这 种 复杂 功能 描述 的 紧 资 形式 ， 可 以 描述 大 量 的 
互 不 相 容 的 对 象 。 一 般 地 说 ， 功 能 合 一 语法 中 的 语法 规则 可 以 几 
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一 个 统一 的 蕊 能 描述 FD(6) 训 示 如 下 ， 
Ер(6) | САТ= С: ] >N 


[ ©Ат=©. ] 


| САТ= С, ] | 
Lt ОУ] 

对 于 采用 这 种 复杂 特征 集 求 描述 的 系统 米 说 ， 甚 描述 的 详尽 
程度 是 设 有 限制 的 。 一 个 描述 中 所 包含 的 特征 越 当 ， 它 对 所 拱 述 
的 对 象 的 限定 也 就 越 具 体 ; 如果 从 一 个 描述 中 撤消 某 些 蛙 征 , 就 可 
能 扩大 它 记 描述 的 对 象 的 覆盖 面 。 因 冰 , 灵 活 地 控制 特征 的 数量 ， 
认真 地 选择 特 征 葛 内容 ， 寺 可 以 用 复杂 特征 集 进行 恰当 的 描述 。 

在 机 器 翻译 的 机 器 词典 中 ， 对 于 每 一 个 单词 的 定 镶 ， 不 仅仅 
给 岩 其 词类 ， 而 且 ， 还 应 该 标 出 这 个 词 的 静态 的 词法 特征 ， 名 法 
特征 和 语义 蛙 征 ， 这 就 是 在 词 这 -级 采用 复杂 转 征 集 。 随 著 自 动 
句法 分 析 的 推进 和 自动 语义 分 析 的 进行 ， 句 子 中 的 每 个 单词 除了 
被 标注 上 来 自 词典 中 的 这 些 静 态 特征 之 外 ， 在 表示 句子 层次 结构 
的 料 形 图 的 每 个 结 点 上 ， 计 算 机 还 会 运算 出 一 些 动 态 特征 ， 它 们 
大 大 地 充实 了 来 自 词 典 中 揭 静 态 竺 红 的 内 容 ， 这 些 动态 特征 当然 
也 楼 雇 复杂 特征 集 的 形式 来 标注 ， 这 就 是 在 甸 法 分 析 和 语义 分 析 
这 一 级 采用 宴 杂 特征 集 。 复 如 特征 集中 的 各 种 复兴 特征 ， 可 以 在 
和 氟 语 归并 的 过 程 中 从 中 心 词 的 复杂 特征 标记 中 继承 过 来 ， 也 可 以 
根据 旬 法 语义 规则 动态 地 通过 计算 机 计算 出 来 。 在 原 语 自 动 分 析 
中 采用 这 样 的 复杂 畦 征集， 有效 地 解决 了 兼 类 词 和 野 义 结 枸 的 判 
定 等 困难 问题 ， 并 且 抬 向 法 分 析 和 语义 分 析 通 过 复杂 特征 集 这 各 
手中 有 宙 地 结合 起 来 ， 从 而 碍 高 了 原 请 生 法 语义 分 析 的 效率 。 


Zi» 


Н ЖЕЕ НА УЮ pir BEL АНЕ, Pu TEJ hi E 
提出 的 首位 学 中 十 二 对 区 别 畦 征 ， 要 丰富 得 多 ， 它 们 不 仅 是 二 元 
对 立 的 ， 而 且 还 是 多 元 对 站 的 ， 不仅 上 共有 线性 的 结构 ， 而 且 还 具 
有 了 健 套 的 “ 遵 归 的 缚 构 ， 所 以 ， 对 于 复杂 特征 集 ， 就 不 能 采用 一 
般 的 “并 ” 送 算 方法 来 进行 运算 ， 丽 要 采用 新 的 方法 。 

功能 合 一 语法 是 采用 “ 合 一 ”这 种 独特 的 运算 方式 来 对 复杂 
特征 集 进 行 运算 的 。 

“会 一 "是 数理 逻辑 中 的 一 阶 询 词 演算 使 用 的 一 种 运算 方法 。 

导 找 其 种 项 对 变量 的 置 澳 ， 从 而 使 岩村 式 一 玛 的 过 程 叫 做 合 
一 。 却 果 丰 在 一 个 置换 S$， 把 它 作用 到 表达 式 集 {EB;} 中 的 每 一 个 
TRE, EEn = = …= 卫 ， 那 么 ,就 说 者 达 式 澡 1Bi} 是 可 
合 一 竟 ，S 就 叫做 {Fi} 的 合 一 者 《unifier7， 因 为 它 的 作用 是 i 
该 集合 简化 为 一 致 的 形式 。 

人 例如， 请 两 个 公 辑 项 


А; jl, y) 
和 B, /(g(u, a), h(a)), 
如 果 用 逻辑 项 

С, z=g(h(ay, а) 
和 D, у= йа) 


RERA, ВР Шау, MEI ЈА, АЛАВИ EAU, 
g)h(0)), МІТ АЯДВЖ E ARR АДА ЯВ 
合 一 ， СЖОЩЊА, ВЖ, А, BURTA- B 807. 

目前 ， 这 种 合 一 运算 已 经 被 广泛 地 应 用 于 高 阶 逻辑 、 计 算 复 
杂 性 理论 、 可 计算 性 理论 、 逻 辑 竹 序 设计 等 领域 ， 并 进 - - 步 被 应 
用 到 计算 语言 学 、 机 器 翻译 、 自 然 语言 理解 和 人 工 管 能 等 领域 。 
合 一 运算 被 如 此 广泛 应 用 的 原因 之 一 是 迎 辑 程序 设计 语言 
FROLOGA ËE, HAPROLOGĦ RAMAT A (Horn clause) 
的 归结 过 程 中 所 依据 的 基本 运算 之 一 就 是 合 一 运算 。 

在 功能 全 一 语法 中 ,使 用 合 一 运算 来 把 若干 个 功能 描述 FEP A 
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ЗАВЕО PPD。 具 体 地 说 ， 恕 果 有 两 个 或 两 个 以 
上 简单 的 功能 描述 是 相 究 的 ， 合 可 通过 人 彰 一 运算 把 它们 合并 成 一 
个 简单 的 功能 描述， 使 得 这 个 功能 描述 所 描述 的 对 象 ， 正 是 对 面 
若干 个 功能 描述 所 共同 描述 的 对 象 。 

这 样 的 侣 一 运算 与 集合 论 中 的 求 并 运算 十 分 相似 ， 担 合 一 运 
算 与 求 并 运算 的 不 同 之 处 在 于 ， 当 合 一 被 应 用 于 不 相 容 的 项 时 ， 
合 一 失明 ， 并 产生 一 个 空 华 。 

求 并 运算 记得 到 的 并 集 是 参与 运算 的 各 个 集合 里 所 有 不 同学 
Жали. и, 

(А, BUC, Ву = (А, В, C) 

Ak Jr ir, ЕА ООО АКГ ЕЕ, р 
ЛЖИ, Tü Co у) ЗЕТ ЕМЕ 的 值 为 vi， 
ЖН ТЕГ ОРЛИК. А ЕЈ 
的 内 部 结构 。 假 设 

@= Th э), (f, Ya} 

B= (Cf, у1)} 
即使 v 天 y ，01j8 所 表达 的 信息 互相 抵 甬 ,在 进行 求 并 运算 之 后 ， 
其 并 集 仍 然 为 

Y=0UB= {Ch эу), С, у), ©, Yoy 在 并 集中 
虽然 保 竺 了 抵触 的 信息 ， 不 过 ， 从 信息 组 合 和 传递 的 角度 来 看 ， 
所 求 得 的 并 集 Y 荐 没有 意义 的 。 

售 一 运算 必须 考虑 运算 结果 的 合理 性 ， 在 合 一 运算 中 ，, ща» 
ВТЗ ЛАА H KA, KARARIR (биш), 3 
RERE КОЕНЕК О En, WE 

a J8 = 0 

可 见 ， 合 一 运算 与 求 并 运算 得 到 的 结 浊 是 很 不 相同 的 。 

下 面 我 们 给 出 在 动能 合 一 语法 中 合 一 运算 前 形式 定义 ， 

如 果 有 某 种 运算 具有 如 下 性 上 质 
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1 着 < 和 5 均 为 原子 ， 则 sU5=a， 当 且 仅 当 s =b “Mb Ub 
=Ø, 
2. wa 181429 ARRIER M 


Фар =v， 担 BCf) 前 值 飞 经 定义 ， 则 了 = УР 8; 
Фау =», 但 (站 的 信 未 经 定义 ， 则 了 = y 078, 


ас) =, BED =, Н у sy НЕА, M] 
f= (vi Шу, Fa UB, ЖОЙ, 008= 2, 

那么 ， 就 把 这 种 运算 品 叫 做 合 一 运算 。 

从 全 一 运算 的 定义 可 以 看 出 ， 和 集合 论 中 的 求 并 运算 是 合 一 运 
算 揭 一 种 特殊 情况 。 当 合 一 前 对 象 所 会 的 元 岩 为 不 可 分 解 的 硅 子 
时， 合 一 的 结果 等 于 并 集 。 当 合 一 的 对 象 是 有 雏 构 的 复杂 特征 集 
时 ， 就 机 检验 特征 的 相 窜 性 ， 只 有 当 特 征 相 容 时 ， 相 应 的 复杂 特 
征 才能 合 一 。 因 此 ， 合 一 运算 具有 两 种 作用 ， 

第 一 ， 合 并 原 有 的 特征 信息 ， 宰 造 新 的 特 年 结构， 这 与 集合 
论 中 的 求 并 运算 类 似 ， 

第 二 、 检 查 特征 的 相 容 往 和 规则 执行 的 前 提 条 性， 加 果 矢 与 
合 一 的 特征 相 冲 突 ， 就 立 妇 宣布 全 一 失败 。 

可 见 ， 合 一 运算 提供 了 一 种 在 合并 各 方面 来 的 特征 信息 的 同 
上 时， 检验 限制 笨 件 的 机 制 。 这 正 是 语言 符号 的 非 单 元 性 在 计算 机 
运算 方面 记 需 要 的 ， 因 此， 这 种 合 一 运算 受到 了 计算 语言 学 工作 
者 的 丈 迎 。 

我 们 举例 说 明 恕 何 进行 千 - -运算 。 


例 1. 

CAT=VERB | ,CAT=YERD 

LEX = ‘run’ Ü NUMmER -svo -> 
TENSE = PRES ， 


PERSON = THIRD 
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-CAT = VERB ~ 
LEX = ‘run’ 
TENSE = PRES 
NUMBER = SING 
PERSON = THIRD ~ 
ATASA- A BI МН БУЕ 35 35: 4F36 483 W, 
因此 ， 合 一 运算 的 结果 等 于 这 两 个 功能 描述 中 的 复杂 特征 求 并 ，。 
lz. 
САТ = VERB САТ = YERB 
LEX= туп’ |1 ТЕМЕ = РАЅТ 
TENSE = PRES PERSON = THIRD 
由 于 这 两 个 功能 描述 中 ， 第 一 个 功能 描述 中 的 TENSE 
= PRES， 第 二 个 功能 描述 中 的 TENSE=PAST， 订 互 抵触 ,因而 
ABR НАМИ, ERE RM, 


-NIL 


йз. 
- TENSE=PRES - 
FORM = *is’ _ [CAT = VERB 
TENSE = PAST j Ы [reuse = РАТ” 
РОЕМ = was’ - 
САТ = VERB 
TENSE = РАЅТ 
FORM = ‘was?’ 


第 一 个 动能 描述 是 由 不 相 容 约 两 个 简单 功能 描述 合并 而 成 的 
复 末 功能 描述 ， 它 与 第 二 个 功能 描述 进行 合 一 运算 时 ， 取 相 容 的 
特征 作为 合 一 运算 的 结果 。 由 于 第 一 个 复杂 功能 描述 中 的 特征 
TENSE = PRES ). 
[Fons чы: | 
与 第 二 个 功能 描述 中 的 特征 不 相 容 ， 故 被 舍 去 。 
- - 般 她 说， 两 个 复杂 功能 描述 的 合 一 运算 结果 仍然 还 是 复 内 
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йам, ЖЕ, ЛОКО АВ Н-Т, 
因此 ， 


{aas as, +, Ga} Ú (bi, Ьу, +, b.) 
就 得 到 一 个 形式 为 [cis Са, s, су} ВВЕ, Ж 8—0 
(I<h=<k) 都 是 一 对 相 究 项 的 合 一 运算 ү а= b, (1<i<n, 
1=j=m)y, 

由 此 可 见 ， 合 一 运算 应 该 具有 如 下 的 和 性质， 

1. 合 一 运算 可 以 对 信息 进行 相 加 ，; 


piis 
[CAT =N] U (AGREEMENT = [NUMBER = SING]] 
CAT=N 
> | AGREEMENT =[NUMBER = SING; 
2. & — 6 Wo KES BU, 
例如 ， 
-[CAT=N 
ГСАТ=М№]) 
AGREEMENT = [NUMBER = SING] 


CAT=N | 
— 
AGREEMENT =[NUMBER = SING] 


前 一 个 复杂 畦 征集 中 的 CAT = NN 被 吸收 到 后 一 个 复杂 特征 集 
当中 去 了 。 
3. 空 凰 项 是 合 一 运算 的 各 元 ， 


_ [CAT=N 
[ lJ saa = [NUMBER = SING | 
CAT=N 
-| AGREEMENT = [NUMBER = SING), 


空白 项 与 复 染 畦 征集 进行 合 一 运算 ， 则 该 空白 项 被 复杂 特征 
集 吸 收 ， 
4, 当 特征 值 相 容 时 ， 相 同 的 特征 可 以 全 一 
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pim, 
AGREEMENT = [NUMBER = SING] ] 
SUBJ =: AGREEMENT = [NUMBER = SING1| 


U[SUBI= [AGREEMENT = [PERSON = TIIIRD1]] 
“AGREEMENT = [NUMBER = SING] 


>, SUBJ = | AGREEMENT = Bapa SING | 
L 


PERSON = THIRD 


出 于 在 前 后 复杂 特征 党 中 ， 特 征 SUBJ 和 埋 征 AGREEMENT 
的 特征 值 NUMBER = SING 和 PERSON = THIRD 是 站 容 的 ， 所 
以 ， 合 一 后 形成 特征 
I NUMBER = SING +; 
SUBJ = [AGREEMENT = [PERSON = THIRD | | | 

ША ЕЕЕ ЕТИКЕ NRA 3EE 
МААЕ ЕЕ И ИНЕ ДАНЕ У RO aT BRER ARR 
ЛА, ЖА, Н 8-Е Е ИЛИ ЕЕЕ E R. dE 
常理 想 的 了 。 这 是 因为 ， 

第-~-、 一 :个 滞 育 单位 《如 名 子 或 词组 等 》 所 负载 的 信息 可 以 
分 布 在 各 个 成 分 之 中 ， 和 餐 个 成 分 所 负载 的 可 忆 只 是 部 分 的 信息 。 

第 二 、 道 过 合 一 运算 ， 在 小 成 分 组 合成 大 成 分 的 过 程 中 ， 小 
成 分 所 负载 的 信息 也 有 同时 被 传递 或 罕 加 为 火 成 分 所 负载 的 信息 ， 
在 合 一 运算 的 过 程 中 ， 信 息 具 会 逐渐 增加 而 不 会 减少 。 

第 和 三 、 由 于 名 法 分 析 和 语义 分 析 才 以 合 一 运算 作为 基本 运算 ， 
不 羽 名 子 的 合法 竹 可 以 通过 语义 手段 来 判断 ， 而 耳 ， 有 还 可 以 把 局 
子 购 名 法 结构 和 语义 表示 用 合 一 运算 这 入 方式 更 加 自然 般 符 搂 
Жж. 

第 四、 不 同 的 功能 描述 的 合 一 运算 结果 ， 同 这 个 运算 所 进行 
的 先后 次 序 无 关 ， 不 论 会 一 从 哪个 方向 开始 ， 也 不 论 是 先 全 一 还 
是 后 合 一 ， 合 一 的 结果 都 是 相同 的 。 会 一 运算 的 这 种 无 序 修 非 常 
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ТЭР, T BISA SIE B B ШИЕ st yb PA T 
自然 语言 描述 的 语法 理论 。 
在 复杂 特征 集 与 合 一 运算 的 基础 上 ， 马 丁 ， 凯 依 提出 了 功能 
合 一 语法 。 
功能 合 一 语法 的 最 大 特点 就 是 在 词 条 定义 、 句 法 规则 、 语 义 
规则 和 和 子 的 描述 中 ， 金 面 地 、 系 统 地 使 用 复 扫 特征 党。 
АЕ КЖ, 
ЙЭШ, и за Ж = SD, ДЕТИ Бат, пру = ЖЕ 
Ж, НОРА ЕВ NS E Ж ЛЫШ» MEDOR 
FD(8)8IPD(9), 
РСТ), 
САТ = ү 
TENSE = PAST 
TRANSITIVITY = MENTAL ~- PROCESS 
ROOT = ‘бее’ 
LEX = ‘saw’ 
ED(7) 表 示 saw 是 动词 see 的 过 去 时 形式 , 它 的 含义 是 “看 见 
Ер(8); 
САТ = № 
NUMBER = SING | 
LEX = ‘saw? 


FDC(08)86& Rsaw й, ERRULE RT, 
ЕР), 


-САТ =V 
TENSE = INFINITIVE 


TRANSITIVITY = MATERIAL ~ PROCESS 
ROOT = ‘saw? 
-LEX = ‘saw?’ 
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PDA saw Ji эй} зал, [К ERER ENEE 
2. 箱 法规 如 的 描述 ， 
例如 ，FDC10) 和 FDCI1) 分 别 是 主动 态 和 被 动态 的 规 出 ， 
ЕРС 10), 
K =Š 一 
PATTERNS = (...PREDICATE DIRECT ~ OBJECT =) 
SUBJ = ACTOR=[CAT=N] 
CAT=V 
TRANSITIVITY = MATERIAL 
- PROCESS 
-VOICE = ACTIVE 
-VOICE = ACTIVE 一 


FD(11); 
-К=8 И 
PATTERNS = (.:.РВЕРІСАТОЕ...ВҮ...АЮЈОМСТ.-) | 


PREDICATOR = 


SUBJ = AFFECTED =[CAT =N] 

CAT=V 

TRANSITIVITY = MATERIAL 
-~ PROCESS 

VOICE = PASSIVE 一 

| СК=РР т 

CAT = PREPOSITION 
LEX = ‘by’ | 
-OBJE = < AGENT; _ 
-VOICE = PASSIVE _ 


Jih, ACTOREOFRMEE, AYFECTEDSE TER, WERS 
的 含义 从 相应 的 英文 词 的 间 义 不 难 体会 出 来 。 
这 两 条 规则 的 调用 条 件 是 ， 
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PREDICATOR = 


BY =- ADJUNCT =| PREP = 


1. 和 句法 成 分 的 KK = 5, ШИЕ ТЕЛЕ P sentence); 
2, 谓 语 动 词 表示 一 个 “物质 过程"， 即 
TRANSITIVITY = MATERIAL – PROCESS 
特征 PATTERNS 的 值 是 有 序 的 ， 它 规定 了 主动 态 和 被 动态 
各 型 中 语言 成 分 的 基本 有 顺序， 主动 态 中 的 PATTERNS 艳 《〈… 
PREDICATOR DIRECT – ОВЈЕСІ...), 被 动态 中 的 PATTE- 
RNS 是 (PREDICATOR...BY ADJUNCT...) RIE, RE 
特征 PATTERNS 的 值 ， 就 可 以 安排 和 调整 有 关 语 言 成 分 的 位 置 。 
例如 ， 英 语句 子 She smashed a brick 《她 三 入 了 一 其 砖 ? 的 


和 甸子 结构 可 用 FD(12) 来 措 述 。 
ЕР 12); 
-K=S _ 
PATTERNS = (SUBJ PREDICATOR DIRECT 
— OBJECT) 
TENSE = PAST 
VOICE = ACTIVE 
K=NP _ 
PATTERNS = (HEADY 
-CAT-= PRON 


GENDER = FEM 
HEAD=| CASE=NOM 
SUBI= ACTOR = NUMBER = SING 
PERSON = THIRD 
-LEX = “she” 
NUMBER =SING 
DEFINITENESS = DEFINITE - 
PERSON =THIRD 一 


-САТ=У - 

TRANSITIVITY = MATERIAL 
PREDICATOR = _ PROCESS 

VOICE = ACTIVE 

-LEX = ‘smashed’ - 
-K= NP - 
| PATTERNS = (DETERMINER | 

HEAD | 

-CAT= ARIICLE - 
| DETER . ' NUMBER = SING 
DIRECT ~ OBJECT | WINFR | DEFINITENESS 
= АРРЕСТЕР = = INDEFINITE 
-LEX = ʻa’ _ 
CAT=N 
NUMBER = SING 
LEX = ‘briek’ 
NUMBER = SING 
DEFINITENESS = INDEFINITE 
- -PERSON = THIRD -- 


TRADERE P, AO Y AHT], ЖИНАП Е 
wR 2 НОНЕ ТУВЕ МИИ, ПН, ИНН ТН ЛУБ smashed 
ШУЙ (aetory, 2519 (аМесіса) 等 语义 关系 方面 的 内 容 。 

出 于 语 宣 符 号 具有 非 草 元 性 ， 而 复 霖 圣 征集 和 售 一 运算 的 方 
法 ， 特 别 适 他 于 描 闵 语言 符号 指 这 种 非 单元 性 ， 因 而 这 样 的 方法 
已 成 为 了 现代 计算 语言 学 的 主流 。 除 了 功能 合 -语法 之 外 ， 现 代 
计算 语言 学 的 主要 流派 ， 如 广义 短语 结构 语法 、 词 汇 功 能 琴 法 ， 
中 心 词 驱 动 的 丛 语 结构 语法 、 定 子 杀 语法 等 ， 都 采用 了 这 样 的 方 
法 。 

广义 短语 结构 庄 法 是 以 上 下 文 无 关 的 短语 结 均 语法 作为 基础 
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HEAD= 


+ 


的 ， 它 的 信息 表达 方式 就 是 一 个 良 制 的 “特征 / 值 " 系 统 ， 记 有 的 
句法 特征 孝 是 由 特征， 特征 什 > 这 样 的 偶 对 构成 的 。 竺 征 有 两 种 
В. ВЕТА КИЕ: 二 是 它 与 其 它 特 征 在 分 布 上 显现 
什么 样 的 规律 性 。 

一 些 特 征 且 有 终极 值 。 例 如 ， 在 欧 语 中 有 如 下 特征 及 其 终极 
的 特征 值 ， 


特征 转 征 值 
PERSON (АЖ) {1, 2, 3) 
PLUR 《复数 ) {+, =} 
CASE CG) INOM, ACC) 
VFORM (Из) {FIN INF, BAS, PAS, e} 
PFORM (AHER) fto, by, for, -3 


Д, МОМ 6, АСС, FINER ERS, 
INF 表 示 不 定式 动词 ，BAS 表 示 原 形 动词 , PASER 

男 一 些 特征 以 某 个 句法 范畴 为 其 入， 因此 它 的 特征 信和 就 是 这 
个 句法 范畴 所 具有 的 特征 及 这 个 名 法 范畴 的 特征 导 。 例 如 ， 特 征 
4GREPEMENT 就 是 以 侣 法 范 栈 NP 为 其 值 , 如 果 铝 法 范畴 MP 含有 
如 下 特征 ， 

CN, +›, <V, =>, (PERSON, 3>, «РАЧЕ, ~ ›}, 
那么 ， 表 示 一 致 关系 的 特征 AGREEMENT 的 值 就 是 ， 

{ (AGREEMENT, (N, +>, <V, -У‹РЕВЅОМ, 35 

«PEUR, —›}›} 

由 于 采用 了 这 样 的 复杂 特征 ， 就 能 够 充分 吉事 达 侣 子 中 所 和 
含 的 各 种 信息 ,大 大 提高 了 乔 姆 斯 基 的 短语 结构 语法 的 描述 能 力 。 
乔 姐 斯 基 蕴 宜 称 短语 结构 语法 不 适合 于 频数 学 的 谨 言 来 描述 自然 
语言 的 句子 结构 ， 而 差 兹 达 等 人 则 指出 ， 乔 姆 斯 基 之 所 以 得 出 这 
样 的 缚 论 , 是 因为 他 对 秘 语 结构 语法 的 形式 化 作 了 不 必要 的 限制 ， 
规定 上 只 用 简单 浴 记 ， 排 除了 对 复杂 特征 的 使 用 。 苯 兹 达 认 为 ， 如 
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NOR HS АКЕ АГ ЖОН MASSI ТВОЈЕ, ЛАНУ 
ЕЖЕ МАНАТ, ТТЛ ЖЛЕ E ЗЕБИ Е РҮ 
榴 语法 去 搞 生 成 转换 语法 ， 那 么 ， 这 种 采用 复 染 特征 的 广义 短语 
结构 诺 法 将 具有 生成 转换 语法 的 普遍 性 和 生成 性 ， 局 时 还 可 保留 
短语 结 物语 法 的 各 种 优点 。 

词汇 功能 语法 把 旬 法 结构 分 为 成 分 结构 和 功能 结构 两 层 。 成 
分 结构 是 请 育 的 外 部 结构 ， 它 表示 单词 的 形式 .形态 、 单 词 之 间 
前 组 成 方式 、 短 语 之 间 的 组 成 方式 等 。 功 能 结构 是 语言 的 内 部 结 
构 ， 它 表示 谓词 的 各 个 主 目 语 《 论 元 ) 的 句法 功能 、 代 词 的 照应 
bi Shuwa ER, kusa 


А а 


B b 
© с 


在 这 个 属性 信和 换 阵 中 ， 第 一 列 A， 卫 ， 忆 等 表示 属性 ， 第 二 
询 a，b，c 等 表示 相应 属性 所 取 的 什 。 这 种 属性 值 候 阵 实 际 上 就 是 
一 个 递归 的 “特征 / 值 ?系统 。 

除 此 之 外 ， 词 汇 功 能 语法 述 带 有 特殊 类 型 的 特征 和 信息 ， 并 
且 在 词汇 一 级 也 采用 了 复业 特征 集 。 词 汇 功能 语法 的 功能 等 式 实 
现 了 复杂 特征 集 在 句法 结构 的 各 个 结 点 之 问 的 组 侣 和 传递 。 

卡 普兰 和 布 列 斯 元 证 明了 ， 在 词汇 功能 语法 中 ， 由 成 分 结构 
到 功能 结构 的 运算 在 数学 上 是 有 定 解 的 《geeidabley, 谭 且 所 有 的 
运算 都 只 需要 采用 侣 一 来 进行 。 

中 心 调 驱 动 揭 短语 结构 语法 通过 引入 环绕 中 心 词 的 符号 运 
等 ， 放 宽 了 广义 得 冰 鱼 构 语法 中 对 上 下 文 无 闫 的 特征 系 久 的 某 些 
限制 ， 扩 充 了 广义 短语 结构 语法 的 描述 能 力 ， 由 干 整 个 名 于 是 以 
中 心 词 为 核心 而 把 复杂 特征 集 的 信息 联系 起 来 的 ， 复 洒 特 征 舍 在 
这 种 语法 中 起 着 举足轻重 的 作用 。 

近年 来 , 逮 辑 语法 有 了 很 大 的 发 展 。 逻 辑 语法 (logic gram. 
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таг) ЖЕНЕ KELKAR 它 是 还 辑 程序 设计 和 Bü 
代 语 言 学 相 结 合 的 产物 。 存 机 器 翻译 和 肖 然 语 育 理解 的 研究 领域 
里 ， 经 常 使 用 谓词 返 辑 来 措 述 知识 和 进行 逻辑 推理 ,70 年 代 以 来 ， 
届 辑 以 PROLOG 语 言 作为 形式 被 应 用 于 程序 设计 ， 谓 词 好 辑 就 不 
再 仅仅 用 于 描述 知识 和 逻辑 推理 的 问题 ， 还 作为 逻辑 程序 设计 的 
工具 来 描述 解决 问题 的 过 程 。PROLOG 语 青 使 得 逻辑 和 程序 设计 
这 两 个 相 双 其 远 、 完 全 不 同 的 概念 协调 统一 为 一 个 概念 一 一 逻辑 
程序 设计 。 在 屠 PROLOG 语 言 来 解决 机 吻 翻 译 和 自然 滞 言 理解 的 
各 种 问题 的 研究 过 程 中 ， 避 辑 语法 日 益 成 熟 起 来 。 

目前 主要 有 四 种 影响 较 大 的 还 辑 崩 法 ， 定 子 名 语法 《Definit 
Clause Өтаттшаг, ОСС), У Се Xtraposition Gram- 
imar， 简 称 XG)7， 怪 饰 成 分 结构 语法 (Modifier Structure Gram 
mar, 简称 MSG), НР НЕЬ (Restricting Logice Gram- 
mar， 简 称 RE)。 这 些 语 法 都 在 不 局 程度 上 突 三 了 短语 结构 语法 
只 采用 简单 特征 来 描述 语法 的 限制 。 由 于 篇 幅 的 限制 ， 我 们 以 定 
子 旬 语法 为 例 来 说 明 这 个 问题 。 

瓦 枚 和 仇 瑞 拉 于 1980 年 提出 的 定子 多 庄 法 是 一 种 仅仅 使 用 短 
语 结构 语法 规则 的 逻辑 语法 。 定 子 甸 语法 的 基本 思想 是 ， 语 法 的 
符号 不 仅仅 是 原子 符 导 ， 还 可 以 是 广义 前 逻辑 项 。 例 如 ， 短 语 铺 
构 语 法 的 规则 

Sentence—> noun phrase, Verb” "phrase 
娄 示 一 个 句子 由 名 词 短语 和 动词 短语 两 部 分 组 成 ， 在 定子 名 语法 
中 ， 同 样 这 个 规则 可 以 表示 ，。 如 村 存在 一 个 各 词 拍 语 和 一 个 动词 
短语 ， 那 么 ， 就 存在 一 个 句子 的 推理 过 程 。 短 语 第 构 语 法 的 规则 
与 定子 名 语法 的 规划 在 形式 上 虽然 有 许多 相同 之 处 ， 但 是 存 本 质 
上 却 有 很 大 的 区 别 ， 短 语 结 构 滞 法 只是 用 于 描述 一 种 语言 ， 市 定 
子 甸 语法 则 可 用 来 进行 语言 的 推 更。 这样， 定子 勾 庄 法 使 实现 了 
从 描述 性 的 形式 语法 到 推理 手 的 逻辑 诺 法 的 转变 ， 从 而 使 短语 结 
构 语 法 产生 了 质 的 飞腾。 | 
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ЖЩ HER ER ЖН Y DM 84 (Horn Clause), 
хатле АЦ ЛОБОК Ар, ІЕС А 
子 公式 的 文字 ， 因 此 ， 在 霍 因子 名 中， 至 多 只 会 有 一 个 为 原子 全 
式 的 文字 ， 这 个 为 原告 公式 的 文字 一 般 写 在 稚 恩 于 名 的 左 部 。 土 
因子 名 的 形式 为 ; 

P, О,, Qiy, =, Q, 

Др, РД ЕСУ, ШИЙ ТААР. Оз. О›, eu О 
不 是 正文 字 。 

稚 恩 子 句 还 辑 意 义 清 晰 、 形 式 简明 ， 给 程序 设计 带 来 很 大 的 
方便 。 从 轴 辑 程序 设计 的 弹 点 来 解释 ， 可 把 堆 妹 子 句 看 成 是 左 部 
至 多 只 会 有 一 个 请 词 的 规则 。 人 例如， 上面 的 定子 句 谈 法 地 则 用 直 
因子 句 可 写 为 ， 

sentence(S50, 8), -—-noun“phrase(S0, S1), 
verb" phrase(S], $) 

这 里 ，S0，81，S 为 字 管 串 前 指针 。 这 个 瞪 恩 子 句 可 解释 为 ， 
如 果 S0 到 $I 之 问 是 -- 个 名 词 短 语 ，81 到 S 之 问 是 -个 动词 短语 ， 
那么 ，S0 和 8 之 间 就 是 一 个 句子。 可 见 ， 小 恩 子 各 具体 地 反 峡 了 
句子 的 推理 过 程 。 

内 于 定子 旬 语 法 中 的 符号 是 逻辑 项 ， 这 就 使 得 定子 名 语法 规 
则 中 的 非 终极 符号 可 以 携带 有 关上 下 文 、 转 措 、 结 攀 等 多 方 曾 的 
信息 ,大 大 地 增强 了 短语 结构 语法 描述 自然 语言 复 订 特 征 的 能 力 。 
而 且 , 定 尘 名 语 法 规则 的 在 部 不 仅 可 以 是 终极 答 导 和 非 终极 符 导 ， 
还 可 以 带 调 试 条 件 的 信息 ， 便 于 描述 自然 洁 衣 的 规律 。 这 种 带 有 
多 方面 信息 的 撒 述 ， 必 须 使 用 复杂 特征 集 和 合 一 运 筑 的 方法 。 定 
子 名 语法 虽然 在 形式 上 使 用 了 短语 结构 语法 ， 但 是 ， 它 的 描述 能 
力 已 经 相当 于 乔 媚 斯 基 定 义 的 0 型 文法 。 所 以 ， 我 们 认为 ， 定 子 条 
语法 是 采用 届 辑 程序 设计 前 观点 以 及 复杂 特征 党 和 合 一 运算 的 方 
法 对 乔 姆 斯 基 短 语 结 物语 法 的 一 个 重要 改进 ， 这 是 语言 符号 的 非 
单元 性 的 又 一 个 有 有 力 的 证 明 。 
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第 七 章 


滞 言 符号 的 模糊 性 与 模糊 数学 


第 1 节 语言 符号 的 模糊 性 


达 络 尔 没有 认识 到 语言 符号 具有 模 精 性、 他 在 e 普 通 语言 学 
教程 一 书 中 说 ，“ 从 心理 方 商 看 ， 思 起 离开 了 词 的 表达 ， 只 是 一 
团 没有 定形 的 、 模 糊 不 清 的 深 然 之 物 。 折 学 家 和 语言 学 家 常 一 到 
承认 ， 没 有 符号 的 项 助 ， 我 们 就 没 法 清 想 地 、 坚 实地 区 分 两 个 观 
念 。 恩 想 本 身 好 象 一 团 星 云 ， 其 中 没有 必然 划 定 的 界限 。 预 先 确 
定 的 观念 是 没有 的 。 在 语言 出 现 之 前 ， 一 切 都 是 模 粮 不 清 的 "中 。 
他 又 说 ,语言 对 思想 所 起 的 独特 作用 不 是 为 表达 观念 而 创造 一 种 
物质 的 声音 平息 ， 而 是 作为 思想 和 声音 的 媒介 ， 使 它们 的 结合 必 
然 异 致 各 单位 之 间 征 此 划 清 界 限 ."@ BREL RARUA E 
是 由 于 语言 的 作用 才 使 模糊 的 思想 和 声音 的 各 单位 之 间 清 六 起 
来 ， 他 完全 没有 认识 到 语言 本 身 也 具有 模糊 性 。 

Ф 案 绪 尔 ， 人 普通 语言 学 教程 >, 中 详 本 ,商务 印 书馆 ，1980 年 ， 第 157 

@ p, 第 i567 一 158 责 。 
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但 是 ， 中 在 吉 着 腊 时 代 ， 语 言 中 的 模糊 现 蒙 就 引起 了 人 们 的 
注 洛 ,十 希腊 哲学 迈 加 拉 学 派 的 代表 人 物 之 一 尤 布 里 德 斯 《Eubu- 
lides 就 据 由 了 著名 的 “ 达 锁 推理 律 论 ”, 这 个 停 论 以 多 种 形式 流 

“一 粒 妻子 构 不 成 一 堆 ， 对 于 任何 一 个 数字 n 来 说 ,如 果 n 粒 走 
子 形 不 成 推 的 话 ， 那 么 ，#+ ] 粒 南 予 也 形 不 成 蕉 ， 因 此 ， 任 党 多 
BAB S ARE", 

ЖКНЫН GE ТЕ, ЫЛРИ 
РВ ЖЕ", ВО, ТТВ. руп AATED 
一 “ 握 ” 的 界限 也 是 横 革 的， 所 以 ， 人 们 很 容易 轻信 这 个 悖 论 所 
进行 的 推理 。 

从 万 布 里 德 斯 以 后 的 两 千年 左右 ， 人 们 严重 地 忽视 了 自然 诺 
宫 词 请 的 模糊 性 。 直 到 1903 年 ,美国 数理 法 辑 学 着 皮尔 斯 CPearee) 
又 开始 研究 “ 模 料 ” 问 题 ， 并 结 模 糊 下 了 这 样 的 定义 :<“ 当 事物 浊 
现下 种 可 能 的 状态 时 ,尽管 谎话 者 对 这 些 状 态 进行 了 仔细 的 思考 ， 
实际 上 仍 不 能 确定 ， 是 把 这 种 状态 排除 某 个 合 巅 ， 还 是 好 属 这 个 
命题 。 这 时 人 收 ， 这 个 命题 就 是 模糊 的 。 上 面 说 的 实际 上 不 能 确定 ， 
我 指 的 并 不 是 由 于 解释 者 的 无 知 而 不 能 确定 ， 而 是 因为 说 话 省 的 
语言 的 特点 就 是 柜 髓 的 "中 。1908 年 ， 德 国学 者 安 东 ， 马 尔 蓝 
(Anton Marty) 在 普遍 语法 和 语言 哲学 基础 研究 ?一 书 中 ,对 语 
言 的 模糊 性 发 表 过 深刻 的 见解 ， 全 指出, 我们 所 说 的 模糊 是 指 这 
样 一 种 现象 ， 即 某 尼 名 称 返 用 的 范围 是 没有 严格 划 定 界限 的 " 龟 
他 举 的 例子 是 abett a hundred (A2J-— H), Swectish CAAM 
B). greenish CHS BHD, DECR), Small quickly GJ), 
slowly (D S, BH, HRES NENEA ETARIK 


O # ЧН; ERT, ИЛЕРИ ME, ORX Шэ), 138542, 
第 8 期， 第 26 页 。 

© 转 引 自 ， 伍 铁 平 ,* 论 模糊 理论 的 诞生 及 其 研究 对 象 与 正 溃 问题 1， 
(语文 现代 化 ?)，1983 年 ， 第 2 三 ， 第 106 页 。 
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英国 著名 哲学 家 和 数学 家 罗素 CB. Russel) 于 1923 年 写 过 
一 篇 + 论 模糊 性 的 论文 。 他 指出 :” 整 个 语言 都 或 多 或 少 是 模糊 
芍 "。 并 且 举 例 论 证 了 这 个 问题 , “由 于 颜色 构成 一 个 连续 统 , 因 此 
阁 色 有 深 有 滞 ， 对 于 这 些 深浅 不 同 的 颜色 ， 我 们 就 拿 不 准 是 否 把 
它们 称 为 红色 。 这 不 是 因为 我 们 不 知道 “红色 ”这 个 词 的 意义 ， 而 
是 因为 这 个 词 的 适用 范围 在 本 质 上 是 不 确定 的 。 这 自然 也 是 对 人 
变 成 秃子 这 个 十 老 之 谜 的 回答 。 假 定 一 开始 他 不 是 秀 子 、 他 揭 闫 
次 一 根 根 地 脱落 ， 最 后 才 变 成 秃子 。 于 是 有 人 争辩 说 ， 一 定 有 一 
根 头 发 ， 由 于 这 根 头 发 的 脱 蒜 ， 便 使 他 变 成 秃子 。 这 种 说 法 自然 
是 荡 唐 的 。 有 需 头 是 一 个 模糊 锋 念 ， 有 一 些 人 肯定 是 元 子 ， 有 有 一些 
人 肯定 不 是 秀 子 ， 而 处 于 这 两 者 之 闻 的 一 些 人 ， 说 他 们 必定 要 么 
是 孝子 ， 要 么 不 是 ， 这 是 不 对 的 。 排 中 律 用 于 精确 符号 时 是 正 欧 
的 ; 但 是 当 符号 是 模糊 的 时 候 ， 排 中 律 就 不 合适 了 。 事 实 上 ， 所 
有 的 符号 者 是 模 灶 的 。 所 有 描述 感觉 等 竹 的 词 ， 和 都 具有 “红色 "这 
个 词 所 具有 的 同样 的 模 灶 性。 这 种 模糊 性 也 存在 于 象 一 米 或 一 秒 
甸 这 种 表示 数量 的 词 之 中 ， 尽 管 这 些 词 的 模 粮 程度 较 低 ， 而 且 科 
学 希 竭 尽 全 力 使 这 些 袁 承 数 量 的 词 变 得 精确 。 我 不 会 为 了 要 使 这 
些 词 变 得 模糊 去 求 勒 于 爱 因 斯 坦 。 例 如 "一 米 ' 被 定义 为 巴黎 的 一 
定 温度 下 的 一 根 测 反 上 两 个 称 志 之 间 的 械 离 。 既 然 这 些 标志 不 是 
点 ， 而 是 一 定 天 小 的 盔 ， 所 以 它们 之 问 的 焉 离 就 不 是 一 个 精确 的 
概念 。 加 之 温度 的 测量 不 可 能 超过 一 定 程度 的 精确 性 ， 测 杆 的 温 
度 也 从 来 不 是 始终 如 一 的 。 基 于 所 有 以 上 原因，“ 一 米 : 的 概念 是 
缺乏 精确 性 的 。“ 一 秒 钟 ?也 是 如 此 。 钞 是 根据 与 地 球 旋转 的 关系 
下 定义 的 。 但 地 妹 不 是 一 个 刚体 ， 且 地 球 表 别 两 部 分 转动 的 时 间 
并 不 相同 ， 况 且 所 有 的 现 调 都 有 误 益 。 有 蛙 事 件 我 们 可 以 说 它们 
在 不 到 一 秒 钟 就 发 生 了 ， 而 另 一 些 事件 则 要 一 黎 多 。 但 是 ， 在 这 
两 者 之 间 具 一些 事件 ， 我 们 相信 它们 并 不 是 都 持续 了 同样 久 的 
时 间 ， 可 是 这 些 事件 中 没有 一 件 我 们 能 说 ， 它 们 是 持续 了 一 秒 多 
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Mim 3. MU SRAT- “B 
ЖЕНТЛМЕН Y E, AVE {И ДО 3 3 HH = Phan y — b 
还 是 省 于 一 种 ”。 PERR h Ya E ЗЕР HERE (ШЙ НЫ 
E ДЕА ЛЕ LORM ЕЕ Y PS qu. 

1933 年 ， 美 国 说 言 学 察 布 龙 菲尔德 在 其 名 蓝 : 语 言论 ?中 也 指 
内 了 在 然 语 言 中 存在 壮 槛 搬 现 象 。 他 说 .我 们 可 以 模 据 化 学 或 矿 
斩 学 来 给 六 物 的 省 称 下 定义 ， 正 加 我 们 说 ' 盐 ' 这 个 词 的 一 般 的 意 
ЖЗ“ ИШИ” 《NaClD)， 我 们 也 可 雇用 植物 学 或 者 动物 学 的 术 YE 
来 给 衬 物 或 者 动 煌 的 名 称 下 定义 ， 可 是 我 们 没有 一 种 准确 的 方 波 
来 给 象 * 爱 "或 者 “ 恨 ' 这 样 一 些 词 下 定 浆 ， 这 样 一 些 词 涉及 到 好 些 
还 谈 有 准确 地 加 以 分 类 的 环 赢 一 而 这 上 竖 难 以 确定 意 六 前 词 在 词 
汇 里 占 了 绝 大 多 数 。"@@ 他 进一步 指出 六 下 外 ， 即 后 我 们 有 有 一些 科 
学 的 《也 就 是 普 扣 被 系 认 的 而 又 准确 的 ?分 类 :我们 也 还 往往 发 现 
语言 里 的 意义 跟 这 种 分 类 并 不 一 玖 。 德 语 里 抬 纺 鱼 叫做 一 种 * 鱼 *， 
CWalfischFval- ti， 而 把 句 蝠 峙 做 “小 耗子 ”CEFledermaus 
[iae:der- mews]]。 物 理学 家 把 光谱 看 成 是 下 同 长 度 的 光波 的 连 
ЗЕГЕ, Maxo m,m, 017,2 10 tm. m, 可 是 许多 语言 却 
相当 任意 地 划分 了 这 种 阶 程 的 相同 部 分 而 且 没 有 确切 交界 限 。 在 
RRD гла, H, жб, жа. й@, охна 
的 意义 时 以 及 在 不 同 语言 的 颜色 名 称 里 并 不 包含 相等 的 差 级 。 人 
们 的 亲 六 关系 春来 是 忻 简 章 的 事 ， 可 是 存 不 同 庄 言 里 所 用 的 亲属 
ЯН. 后 来 许多 学 者 研究 颜色 调 的 模糊 性 质 和 亲属 
称谓 问题 ， 正 是 溢 着 布 龙 非 尔 德 在 这 里 所 提供 线索 进一步 深入 下 
去 的 。 

1937, Wm (М. Black) 也 写 了 一 篇 * 论 模糊 ?的 文章 。 


Q FE GRE” HEIR 上 横 糊 系统 与 数学 y ,1990 年 ,第 4 着 、 
ЖІН, 817—189. 

D ЗВАН, HEE РА, ВРА. 198018, 166 页 。 

$ Б, 3168730. 
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葵 则 模糊 和 精确 具有 租 对 的 性 质 ， 他 说 :绘图 员 画 的 线 不 论 划 何 
HA, CREATER- RRA RERE. EALA 
Ж ЛЫ АП "ЕН, BARRE R R o < 
PAER У H URRETA АА: Di ЖШ MA 
的 感官 其 以 辨认 的 东西 ， 表 示 这 些 东 西 的 词 〔〈 如 颜色 词 ) 都 是 模 
ЖФ, 

КЕЕ АНЕШТИ МЕ m, (Н, 18911965 
F, ЖЕМЕ КРЕНЕ (L. А. Zadeh) 发 表 了 模糊 集 
合 论 ‘fuzzy sets theory) 的 车 名 论文 之 后 ， 模 糊 性 的 概念 才 第 一 
次 得 到 了 完善 的 亚 示 方法 及 。 查 德 是 一 位 数学 家 ， 可是， 他 在 寞 
灰 数 学 方面 的 研究 工作 却 首 先是 从 观 崇 语 言 符号 的 模糊 性 开始 
和 的。 例如,“ 老年 "这 个 概念 就 具有 模糊 人 性。 七 十 软 算 不 算 “ 老 年 ”9 
加 果 算 ， 那 么 ， 六 十 岁 算 不 息 “ 老 年 *? 五 十 岁 算 不 算 “ 老 年 ”? 这 
是 很 蕉 精确 地 回答 的 。 查 德 把 “者 年 ”看 成 是 建立 在 “年 龄 ”这 
个 论 域 上 的 -一 个 集合 ， 而 把 七 十 网 、 六 十 内、 五 于 岁 都 看 成 是 这 
个 集合 中 的 元 素 ， 这 样 ， 就 可 以 研究 这 些 元 案 宰 对 于 “老年 ”这 
个 集合 的 隶属 关系 。 这 种 隶属 关系 ， 很 难 用 经 典 集合 论 中 的 “ 属 
于 ”或 “不 属于 ” 某 个 集合 的 办 法 来 描述 ， 丽 可 以 用 在 多 大 程度 
上 属于 茶 个 集合 的 办 法 来 撒 述 。 也 就 是 说 ， 一 个 模糊 集合 БА 
征 ， 是 存在 着 一 个 隶 赂 丽 数 4,， 对 于 论 域 0 中 的 每 一 个 元 素 x， 都 
有 一 个 确定 的 值 hs( 名 )， 这 个 值 半 画 着 元 素 z 束 属于 模糊 集合 的 程 
Ж. © 

例如 ， 可 以 这 样 给 出 模糊 集合 “老年 ”的 隶属 函数 公式 ， 

ШО = (0, 150), “老年 ”的 梁 属 函 烙 公式 为 


Ф УН, MET, СВ Е EEK ВО ЛЕ [БИШ э, 
(«УЖА з), 1983, 2185, 103 

@ L.A. Zadeh, Гит sets, ¿“Information and Control», S(1965), 
3338—- 3533, 

@ BER, ИЖ. Baba, Жо, ЖЕШИН. 19834, 
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n Т. 


Hse ot z= Бех) E` 
sE \! КА сє”) | > 


Яй: A AARI E, ЖЕР 


-=n __ 1 92—50 -29-1 
Ив; (бз = |1 | (> = ) | 
#T1+17U71 = 875 = 0.5 
把 60 岁 成 入 公 试 计算， 得 到 ，; 
£ [12089-50371 
use (602 = [1 ( 3 50) | 


一 由 -一 1 =i 
= a = = 0. 
„it *] J 


把 65 岁 代入 公式 计算 ， 得 到 ，; 
65 – 50%: 
Usg сөз) s| 1 (E) ] 


їз, [+ | = 


采用 这 样 的 隶属 函数 ， 就 可 以 对 模糊 词 “ 老 年 ”进行 定 二 的 
ATS АТ “Ж 
年 ”的 程 隆 是 0.8， 七 于 岁 属 于 “老年 ”的 程度 是 0.9。 

在 对 模糊 说 进行 定 其 拱 述 的 基础 二， 还 可 以 把 否定 词 “ 非 ”、 
连接 词 “ 或 “与 ”以 及 程度 副词 “ 极 ”"、 “很 “相当 ”“ 比 较 ”， 
“有 点 儿 ” “稍微 有 点 多 ”等 ,也 用 求 属 函 数 来 名 以 定量 的 刻画 。 
被 定义 了 某 种 运算 法 则 的 否定 词 、 连 接 词 、 程 度 副 词 ， 则 做 模 精 


描述 了 ， 五 十 五 岁 属于 “老年 ”的 程度 是 0.5， 


算 子 。 
模糊 算 子 的 运算 规则 定义 如 下 ， 
1, FEW) “ЧЕ” ВЯ РВА 
Has i~a 
2.394) “л” R R 


Bata = Hav Ha 
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зс "С Н”) МКА 
Baija = Нд? Шз 
цав Ha^ в | 
4 EER] “Л”, “BR. “相当 ” EE “НАЛ”, “Ж 
ЖААЛ" КЕШЕС 
Ка Си), 
Віва = Спа)? 
оча Ср) tF 
Вива = Сна) 75 
Шон Л, а= Сиа)" 
А a = (ра) 729 
Ф, Ч MART “ЖЕ” ВОЯ Фф 为 0.8， 那 
2, ART GPE а P er ОЗА ШИСИ {Н ЖЛ 
Begg 二 工 一 此 老年 一 1 一 0.8=0.2 
BATRE ШЕШН 
Bg = (пиж)? = (0.8) = 0.64 
АТ “S 58 Л” ИЧЕ) 
Дакл æg) 9 = (0.82 *5° = 0.9 
Ew, ZABT “WaT” BERA. S MAT T'R 
ERRADO ЖА, ШЕТ “W POTEK SAR fF” MERES 
0.94/0.4= 9,9; 
ЖТ “АН ЕЖА 
0.9/A0.4=0.4 
查 德 把 普 盘 集 拓 广 为 模糊 集 ， 为 模糊 数学 葛 定 了 基础 ， 这 一 
开创 性 的 工作 不 仅 折 三 了 普通 数学 的 研究 领域 ,而 县 开 辟 了 在 软 、 
多 科学 中 提高 数学 适用 性 的 广阔 途径 。 近 二 下 年 米 ， 模 糊 数 学 前 
发 展 非常 迅速 ， 岂 用 相当 广泛 。 
我 们 应 该 强调 指出 的 是 ， 模 类 数学 的 产生 和 发展， 首先 大 从 
观察 研究 自然 语言 中 药 各 种 模糊 现象 开始 的 。 正 如 蔚 尔 可 去 在 对 
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德 也 是 从 对 自然 诺言 模糊 现象 的 观察 中 发 现 了 模糊 数学 的 。 这 是 
语言 对 数学 影响 的 生动 实例 。 坦 德 本 人 普 明 确 地 说 明 ,模糊 集合 
论 的 这 个 分 支 的 起 源 是 从 语言 学 方法 的 引入 开始 的 ， 它 转 而 又 推 
动 了 模糊 迎 辑 的 发 展 ……。 在 即将 到 来 的 时 代 ， 我 相信 近似 推理 
和 模糊 地 辑 将 发 展 成 为 -个 重要 领域 ， 从 而 变 成 研究 哲学 、 语 言 
学 、 心 理学 、 社 会 学 、 管 理科 学 、 医 学 诊断 判别 分 折 以 及 其 它 
领域 的 新 方法 的 基础 ,*G 查 和 村 这 一 段 请、 又 一 次 说 明了 数学 与 语 
言 之 问 确实 存在 着 密切 的 联系 。 

思 格 斯 在 < 自然 辩 还 法 ;一 书 中 ， 早 就 指 册子 事 物 之 问 界限 的 
不 确定 狂 ,他 说 :“- 切 差异 都 在 中 间 阶 段 融合 ,一 切 对 立 都 经 过 中 
间 环 节 而 互相 过 流 ， 半 自然 观 的 这 种 发 展 阶段 来 说 ， 抽 的 形 面 上 
学 的 是 维 方法 就 不 再 够 了 。 辩 证 法 不 知道 什么 绝对 分 明 的 和 国定 
不 变 的 界限 ， 不 后 道 什么 无 条 件 的 普遍 有 效 的 “ 非 此 即 第 1'， 它 
EARMEN LIRARE, RT HERE, LIE 
当 的 地 方 承 认 “ 亦 此 亦 彼 1" ， 并 且 使 对 立 守 为 中 介 ， BAERE 
一 的 、 最 高 度 地 适合 于 自然 观 的 这 一 发 展 阶段 的 思维 方法 ."@ N 
通 集 4 完全 由 其 特征 函数 X. :U--(0, 1) Am CERS He 
即 彼 1" 的 清晰 概念 的 ， 而 模糊 集 是 措 写 模糊 现象 的 ， 它 容许 “ 亦 
此 亲人 签 1" 的 中 介 状 态 存在 ， 因 而 宰 应 的 特征 函数 之 信 除 了 取 0, 1 
之 外 ， 还 可 取 0 与 之 间 的 任何 值 ， 从 而 将 特征 函 妆 推 广 为 录 属 函 
数 w:U-[0，1]， 衬 是 ， 模 糯 集 合 就 可 以 用 未 属 函 获 b 来 刻画 了 。 
эй, эңиш, таат ва BAES 

‚ МАЕ ТЕ, TN, ЖЕ ASISES ЕРИ 
Ша ан, 

CEINE 3 RSU Ch h kapi у 


ФЕ, HRE, PER + ЖБИ ЗЕ ШЦ, 108115, АД, 
867—681, 
ОН, ЛЕШЕ, АВНА ВЕ, 137146, Ж223Щ„ 
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或 固定 性 ， 对 象 间 又 共有 必然 的 关系 。 

第 二 类 是 随机 任 数 学 模型 ， 这 类 模型 的 消 景 对 象 具 有 或 然 性 
或 随机 性 。 

第 三 类 是 模糊 性 数学 模型 ,这 类 模型 的 背景 对 得 具有 模糊 性 。 

自然 语言 是 一 个 极其 复杂 的 符号 系统 ， 自 然 语言 的 有 些 规 律 
是 可 以 用 确定 狂 数 学 模型 来 描述 的 ， 但 是 ， 由 于 语言 符号 的 随机 
性 和 模 辜 性 ， 自 然 语言 中 的 很 多 规律 必须 借助 于 随机 性 数学 模型 
和 模 勿 性 数 党 并 型 ， 才 能 进行 恰当 的 措 述 

语言 符号 的 焉 机 性 与 语言 符号 的 模 类 性 是 两 个 不 同 的 概念。 

语言 符号 的 随 袖 镍 是 指 事件 的 发 生 与 理 而 言 ， 但 事 体 本 身 的 
会 义 是 确定 的 ， 由 于 条 件 不 充分 ,事件 的 发 生 与 否 有 多 种 可 能 性 ， 
在 0，1] 上 取 值 的 概率 分 布 画 数 就 是 描述 这 种 随机 性 的 ， 它 经 常 
表现 为 字符 或 单词 出 现 概率 的 大 小 。 

语言 符号 的 模 灿 性 是 指 元 素 对 集合 的 过 属 关系 而 言 ， 事 件 本 
身 的 含义 是 不 确定 的 ， 但 事件 发 生 与 否 可 以 是 确定 的 ， 因 而 元 素 
“事件 》 对 集合 的 隶属 关系 是 不 确定 的 ， 在 C0，1] 上 取 值 的 隶属 
兽 数 就 是 描写 这 种 不 确定 性 《 即 模 糊 性 的 ， 它 经 常 家 现 为 单词 
含义 对 某 一 集合 社 属 函数 值 的 大 小 。 

语言 符号 的 随机 柱 放 弃 了 “一 因 一 果 ” 的 决定 论 ,反映 了 “一 
因 多 时 ”的 规律 忆 ， 因 此 ， 它 是 由 于 因果 律 玻 缺 而 造成 的 一 种 不 
确定 性 ， 在 用 统计 数学 方法 来 描述 语言 时 ， 是 满足 互补 律 的 。 

ЕРО А МЕЕ Е Е ГАЗЕ ВП" ЛЕВЕ, TN 
此 亦 我 ”的 规律 性 ， 因 此 ， 它 是 由 于 互补 律 破 缺 而 造成 的 一 种 不 
确定 性 。 

研究 语言 符号 的 纯 机 性 ， 可 以 把 语言 学 的 领域 从 必然 现象 扩 


DREH, EDA, 华中 工学 院 出版 社 ，1983 年 。 
. 2 了。 


大 到 偶然 现象 ， 研 究 语言 符号 的 模糊 性 ， 休 以 把 语言 学 的 领域 从 
清 断 现象 扩大 到 横 普 现象 。 因 此 ， 请 言 符号 随机 性 和 更 糊 性 的 发 
现 ， 都 加 座 了 我 们 对 于 语言 符号 水 质 的 认识 ， 折 广 了 语言 学 的 研 
TTR. 

除了 在 语音 的 单词 含义 方面 存在 措 糊 仁之 外 ， 语 法 方面 也 存 
在 着 模糊 仁 。 情 如 汉语 中 章 复 名 的 划分 问题 ， 传 统 的 划分 方法 是 
按 “ 非 此 即 咎 ”的 确定 性 原则 划分 的 ;“ 非 单 即 复 ， 非 复 妈 举 ， 二 者 
必 导 其 一 .但 是 ， 宙 于 汉 详 处 于 不 断 的 珊 态 变化 之 中 ， 有 许多 知 
式 还 处 于 单 、 揽 句 两 端的 中 介 部 位 ,模糊 性 比较 大 ， 在 不 少 人 句子 ， 
等 别 是 口 请 句子 ， 不 能 简单 邮 归 入 对 立 的 两 庙 单 名 或 提名 中 去 ， 
它们 有 的 既 象 单 徊 ， 又 象 复句 ， 有 的 既 不 象 单 铝 ， 又 不 象 扬 句 。 
ВИП Н ВЕТ УХЕ ЈАС), ВСЕ АЈ р 端 直接 结 
合 起 来 ， 重 视 “ 中 介 物 ”的 “不 4 不 B?、“ 亦 4 В”, ЖЖ 用 单 
各 、 复 甸 二 分 的 办 法 ， 而 采用 三 分 或 多 分 的 办 法 。 才 能 使 问题 得 
到 出 较 圆 满 的 解决。 此 外 ， 还 有 兼 类 词 问题 《如 “计划 ,工作 . 
编辑 、 由 版 ”等 算 和 名词 还 是 算 动 词 》、 离 合 记 问题 (如 “理发 、 洗 
澡 ” 等 ， 也 可 以 说 “ 理 一 次 发 洗 一 个 澡 ”, 是 “理发 、 洗 澡 ” 分 
别 算 一 个 词 ， 还 是 “ 理 、 发 、 洗 、 澡 ”分 别 算 一 个 词 , 看 米 也 都 
应 该 采用 模糊 激 学 的 方法 来 研究 。 

语言 是 约定 俗 成 的 ， 记 以 ， 它 的 明确 或 模糊 ， 或 者 说 ， 它 的 
模糊 实 态 ， 也 应 该 取决 于 社会 的 规定 。 确 定 或 估计 复 糊 性 的 根本 
办 法 是 进行 社会 调查 。 我 国航 天 医学 工程 研究 所 通过 实验 调查 了 
“ 快 "“ 慢 ”的 语文 的 模糊 实 态 。 多 他 们 的 实验 是 这 样 深 进行 的 ， 

荧光 屏 上 一 次 义 一 次 的 出 现 一 个 活动 的 泡 点 ， 凶 次 光 点 活动 
快 懂 不 完全 相同 ， 以 最 慢 到 最 快 有 15 种 均 义 的 级 别 (15 个 “速率 
о"), 991971515, MEREL 2 НТА, без, 1581, J 


CRER, ВНЛ ао, EXHAR, 198646, ШЙ, 

GERT, ‚ AURS ANFORE SINE: «йг», 1981 
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ЖОНУ ШШ, ШШ, FARAR A hk „ЩН 
年 应试 者 先 熟悉 光 点 运动 的 识 惕 。 实 验 的 时 候 ， 叫 应 试 者 把 每 个 
活动 光 点 用 “ 快 "、* 中 ”、“ 窗 ”三 个 概念 之 一 判断 出 米 。 实 验 结 
ПЕТ. 1.10 л: 

# 7.1.1 epr, ©, Ча” жщ 


类 Ж 分 布 得 Ж 分 布 

交点 快慢 第 级 | _ . Q 
® ШШ Їй 快 中 8: 

1 0 t 320 0 0 100 
2 0 1 39 | 0 0 100 
3 0 a 32 | 0 8 98 
4 0 83 237 о 29 її 
5 0 179 141 0 63 44 
8 | 1 221 93 0 77 31 
7 27 285 8 8 100 3 
8 30 285 4 9 100 1 
9 70 246 4 32 86 1 
10 238 81 1 74 28 
11 292 28 0 91 10 0 
12 306 14 0 96 5 0 
13 310 10 0 97 3 0 
14 312 8 0 98 3 Ó 
15 320 0 0 0 0 


表 7.1.1 中 ， {аж ү ЖЕҢЕНИ ЛУН ЯНЕ 2245 „Б К 2y- 


Жї б T EDA ЯН А GA iS ИТ “АК”. {ИШЕ ЛИОН 
6 级 的 光 点 ， 出 现在 330 次 中 ， 有 1 人 次 判断 为 “ 快 ?, 有 221 人 次 判 
断 为 “中 ?, 有 98 人 次 判断 为 " 惕 "。 得 分 分 布 是 从 闫 数 分 布 换算 而 来 
的 ， 忆 100 分 为 满分 ， 代 表明 确 性 最 强 或 模 烛 性 最 弱 ， 这 一 芒 的 
激 字 分 布 相 当 于 模糊 数学 中 表 属 丽 数值 ， 只 不 过 放大 了 1 如 傍 ，。 
根据 这 些 数 据 可 画 成 如 下 的 曲线 图 ， 如 图 7 1,18, 
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О ФИТ y Е АЗ hy tE, 
当然 ， 调 查 不 一 定 都 要 用 仪器 来 实验 。 也 可 以 向 有 代表 性 的 应 斌 


BII. “ 快 >、“ 中 ”、“ 慢 ”曲线 图 


者 口头 询问 ， 统 计 得 分 ， 得 出 有 关 语义 的 模 灶 实 态 。 

语言 符号 的 模糊 性 是 语言 符号 的 特点 ， 这 各 模糊 性 在 很 多 情 
况 下 是 必要 的 和 有 用 的 。 模 糊 数 学 家 硬 根 (J, А. Goguen) 在 1974 
年 说 过 ,“ 描 述 的 不 确切 性 并 不 是 坏事 ， 相 反 ， 鸽 是 性 好 事 ， 它 能 
用 较 少 的 慌 恰 传送 足够 的 信息 ， 并 能 对 复 末 事物 作出 高 效率 的 判 
断 和 椒 理 。 也 就 是 说 ， 不 确切 有 助 于 提高 获 率 ”。@ 他 还 说 ,我 们 
必须 至 少 在 语言 交际 方面 放弃 这 样 一 笑 观 仿 :“ 较 准 兢 总 是 较 
好 ”。 其 实 不 然 ,模糊 不 仅 对 人 类 来 说 比较 适合 ,…… 对 机 器 来 说 ， 
实际 上 世 更 为 有 效 ”。@ 德国 数学 宗 弗 雷 格 СО. Freg WERE 
看 作 是 人 的 一 种 直觉 Cintuitive fecling)。 法 国学 者 杜 梅 CM 
Dummett) 说 ,“ 模 糊 性 是 人 类 语言 不 可 或 页 的 一 个 特点 。 如 困 人 
类 语言 的 许多 表达 不 显现 模糊 往 ， 我 们 就 不 能 象 现在 我 们 这 样 


运用 我 们 的 语言 .……… 任何 对 烧 糊 性 的 令 人 满意 的 解释 必须 至 少 能 
人 @ 转 引 自 Negoita 等 著 ，< 术 类 集 在 系统 分 析 中 的 应 用 ?, 巾 许 本 ,1980 征 
版 ， 引 言 。 


@J. А. Gogucn,< 论 反 糊 机 器 人 的 设计 > B 635 а TE H A: 
试 说 过 程 和 决策 过 竹中 藤 应 用 >， 美国 学 术 出 版 社 ，1075 征 ,第 430 一 
445 
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说 明 人 的 这 种 直觉 " ,中 ERA ЛЭК ЈЕ СУ. Termini) iH: 
“不 精确 性 罕 科 学 中 记 起 的 重要 必用 已 为 人 所 周知 ,例如 。 跟 德 维 
希 1981 年 就 说 过 ， 大 学 生 从 开始 学 习 起 就 必须 认识 到 的 有 关 实 验 
物理 学 的 最 基本 的 浊 实 之 一 是 ， 没 有 一 种 测量 是 精确 的 .…… 一 个 
理论 物理 学 家 应 该 认识 到 ， 作 为 客观 现实 图 景 的 任何 一 种 数学 理 
论 都 不 能 看 作 症 一 副 精 葡 的 图 画 。 他 应 该 认识 到 ， 在 所 亩 精确 理 
论 癌 客观 现实 的 近似 图 画 之 间 原 则 上 并 没有 区 别 。? 因 

语言 中 有 许多 说 法 就 是 为 了 减少 明确 性 、 增 加 模糊 性 的 。 例 
Ш К, ЖКБ. EEE, KE, ET, ZA, XE, hik. 
多 淮 、 在 一 定 程度 上 …- ”等 ,这 些 词语 人 人 都 要 用 ， 这 说 明了 模 
精 常 常 是 必要 的 、 有 用 的 。 在 许多 情况 下 ， 避 免 明 确 斌 以 使 语 育 
тпа, HAA., ®© 

“e. ЗЗА Н, CMs УВА, LZ 
ЭЖ R, ОКЫ, HEAR. W A. “36 у 
Ж”, ИГ L89168 u 5223 EHARA ЗЕ УЛП ВИЙ ЖЫЕН E ih E ik. 
ЖЖ. Жш, Rc. Rh. },5®ж%, ЖЖ, Шарты. 
模糊 性 给 他 留 下 了 很 大 的 选择 余地 。 

有 意识 的 模糊 化 常常 是 语言 中 采用 的 手段 之 一 。 比 奏 .影射 
‚л, ВБ. А ОЕЕО Е НОЕ ВЕЕ Е АНА рК 
Ro 

所 以 ， 有 人 认为 描述 的 精密 和 实用 是 有 矛盾 的 。 凤 尔 虹 (R， 
Е. Bellman) 在 1973 年 说 过 ;“ 要 想 确 切 地 描述 任何 现实 的 物理 状 
态 ， 事 实 上 是 办 不 到 的 。 这 是 一 个 从 认 的 并 经 过 检验 的 守 实 。 因 
丝 ， 描 述 《 对 于 通讯 、 作 决定 ， 推 而 广 之 对 于 人 的 一 切 活动 都 是 
不 可 少 的 ) 的 主要 河 题 使 是 ,减少 必然 会 有 的 不 确切 性 ， 使 它 达 到 
无 关 紧 要 的 程度 。 为 了 把 整个 问题 撒 述 得 详尽 ， 我 们 必须 音准 确 

ORSAF AER ни ават А, 1989F 

SR 《语义 的 模糊 和 明确 ?，(k 语 文 现 代 化 )) ,第 938, 1000, 
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和 简明 之 问 到 担 平 衡 ， 既 减少 复 末 性 而 又 不 过于 简单 化 “下 这 就 
ЖИН) “O ЖЕШ”. 

HA {ЕЗДЕ ЖАШ, ЛЕО ИНА НЕ ЗА ШИЕ 
的 技术 内 容 。 随 着 科学 技术 的 发 展 ， 人 们 对 于 某 些 被 认为 是 模糊 

例如 ， 颜 色 词 一 般 被 认为 是 费 型 的 有 模糊 语义 揭 词 。 因 为 在 
“ 红 一 梭 一 - 黄 一 绿 一 蓝 一 此 ”的 部 色 系 列 中 ， 红 ” 与 “ 杰 " 之 间 ， 
“ 榨 " 与 *“ 黄 "之 间 ,…… 等 等 ,都 没有 明确 的 边界 。+ 现 代 汉 语词 虚 > 
把 “ 绿 ” 解 群 为 “ 象 草 和 醋 叶 茂盛 时 的 颜色 ”"，: 若 海 ? 则 把 “ 绿 * 
规定 为 “至 中 带 导 的 颜色 >, 出 于 草 和 畦 计 的 颜色 既 不 完全 相同 而 
且 时 大 变化 ， 青 中 带 黄 的 程度 也 不 其 明确 ,“ 绿 ”的 语义 显然 是 十 
分 模糊 的 。 

但 是 ， 由 于 科学 技术 的 发 展 ， 当 人 们 对 颜色 这 一 事物 的 认识 
深入 到 数量 界限 的 程度 ， 能 够 准确 地 从 数 的 角度 米 播 述 各 种 颜色 
的 时 候 ， 这 些 颜 色 词 的 模糊 性 也 就 逐渐 消失 了 。 

现代 科学 把 “颜色 ”定义 为 视觉 的 基本 特征 ， 是 不 同 波长 的 
可 见 淆 引起 的 视觉 器 官 的 不 同感 觉 ， 并 且 根 据 可 见 光 的 不 同 波长 
њут, 6. Ж. SR. Ж, ЖЯ. 

红 : 波 长 为 0.77 一 0.622 徽 米 药 可 兄 光 引 超 的 人 的 颜色 感觉 。 

Ë, 波长 为 0.622 一 0.597 微米 的 可 见 池 引起 的 人 的 颜色 感 
党 。 

Ж: 波长 为 0.597 一 0,57? 微米 的 可 见 光 引 起 的 人 的 颜色 感 
觉 。 

ёз 波长 为 0.577 一 0.492 微米 的 可 见 光 引起 的 人 的 颜色 感 
觉 。 

蓝 ， 波 长 为 0.492 一 1.455 微 米 的 可 见 光 引 起 的 人 的 颜色 感 
H о 


ТИ ЦС. V. Мерайа, ЯНЕ Нэ, PRE 
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Ж: 波长 为 0.455 一 0.390 АГ SB Л GR 
觉 。 

数量 是 任何 事物 固有 的 夫 定 性 ， 人 对 事物 的 认识 只 有 深入 到 
溃 物 的 数量 才 是 真正 的 深化 。 因 此 ， 一 切 语义 模糊 实质 都 是 数 的 
槛 帮 ， 而 具体 的 模糊 词 是 一 个 历史 范畴 ， 随 着 入 们 对 事物 的 数 的 
认识 的 发 展 ， 原 来 的 模 戎 词 有 可 能 成 为 精确 词 。 

现代 竺 学 标志 着 人 类 蓝 体 的 认识 进 界 对 容 跑 世界 所 达到 的 最 
新 认识 程度， 但 个 体 的 认识 世界 却 并 不 都 与 之 一 致 。 不 同文 化 各 
度 、 不 同 专业 的 个 体 都 不 能 同样 地 达到 这 样 的 认识 程度 。 尽 管 科 
学 家 对 于 “ 绿 ” 作 了 上 述 严 格 的 规定 ， 但 是 ， 当 人 人 们 在 过 至 似 绿 
非 绿 、 绿 中 带 黄 或 绿 中 带 乾 的 颜色 时 ， 并 不 都 能 根据 可 见 光 的 波 
长 来 决定 它 完 疯 是 否 为 “ 绿 ?, 因 此 ， 就 人 类 的 个 体面 言 ， 郑 色 词 
在 个 体 认识 上 的 模糊 性 仍然 是 在 在 的 。 吕 

又 如 ， 对 于 “ 胖 ”、“ 瘦 ”这 样 的 涪 ， 其 语义 也 是 模糊 的 ， 晶 
常 语言 中 究竟 什么 算 “ 胖 *"， 什么 算 “ 瘦 *， 并 没有 一 个 明确 的 标 
准 ， 可 是 ， 在 医学 上 却 有 一 个 简单 的 公式 作为 判断 有 瘦 的 标准 ， 

身高 厘米 数 - 105 = 标准 体重 公斤 数 

如 果 你 的 体重 超过 标准 体重 ， 那 就 算 “ 胖 ,如 果 低 于 标准 休 
重 ， 那 就 算 瘦 。 这 样 “ 胖 ?>、“ 首 ”这 样 的 模糊 词 的 界限 也 就 明确 
起 来 了 。 

青 如 ， 锋 麻 手 术 时 病人 的 感 党 ， 帘 竟 到 什么 程度 算 “ 疼 " ,其 
田 限 也 是 不 明确 的 。 但 是 ， 医 学 上 要 求 用 明确 的 诸 言 来 说 明 羡 靖 
的 程度 ， 作 了 如 下 的 规定 四 ， 

“0” Эй, 

“+M, НА ЖИЕН, па, AF, ШЕЙК 1Е20ж4Ж 


DREE, «АИТАТ, «Е 75199046, 103 


ORAN. KES «ЕТЕНЕ ТЕРРИ ЕЛЕ AREER et 
KA, тові, 
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ЖЕРИМ, ВО рО /2 A. 

“ка, AARRE, ТЫ, RE, MERI. Ш 
KE, Ш 120305 Ж ЖЕКЕ 22 jj ‚ЖИЕ Зу 20 ЗОКИ 
ZE, БАШ H ЕДО, KERR Pi. 

“+++” ШИШ ЭБЛЕ. KEERI, ЖЇР, 
ЕЕ, Е ЕВЕ ЗОЗ ЖЛЕ Ik 波 动 在 30 次 /分 以 
+, : 

WF. ЯН". “ЭШ”, “HOB”. "Е" ЗЕТЕ SAB, 
就 有 了 了 比较 明确 的 界限 。 

ЭЖЕ «КӨШ» 中 曾 指 出 了 “一 米 ?"、“ 一 种 ” 世 是 模 精 
的 。 近 年 来 ， 人 们 对 于 “ 米 ?*.、“ 秒 ”等 基本 计量 单位 有 了 新 的 规 
定 。1960 年 10 月 ， 第 十 一 书 国 际 计 其 大 会 上 通过 了 新 的 决议 ， 规 
定 一 米 等 于 氮 86 在 真空 中 在 2P14 和 54: 两 个 能 级 之 间 研 迁 时 所 发 
射 的 橙色 光波 波长 的 1650 763.73 人 情 。 这 样 ， 罗 素 对 于 “一 米 ” 的 
模糊 性 的 论述 就 失去 了 祖 据 。 同 样 ， 国 际 计 莉 大 会 对 于 “一 种 ” 
也 作 了 新 的 规定 ， 一 秒 等 子 饮 138 原 了 基态 的 两 个 超 МШЕ 
间 星 迁 时 所 吸收 或 放出 的 电磁 波 周 期 的 3 192 631770 倍 。 这 样 ， 
BRAF “P” 的 模糊 性 的 论述 也 就 站 不 住 脚 了 。 

可 抑 ， 模 糊 词 的 含 广 会 随 鞭 历史 的 变化 和 科学 技术 的 发 展 前 
发 生变 化 ， 它 们 并 不 是 永 异 不 变 的 。 贿 着 科学 前 发 展 ， 一 些 模糊 
词 航 模糊 语 交 会 逐 浙 消失 。 悍 是 ， 出 于 世界 是 无 限 的 ， 真 理 是 不 
可 鹤 尽 的 ， 所 以 ， 人 和 们 对 于 客观 证 界 的 认识 是 没有 下 境 的 ， 和 人 人 们 
对 于 事物 之 间 械 限 的 认识 也 是 没有 止境 区， 一 - 些 模 凌 词 的 模糊 语 
义 消 夫 了 ， 水 会 产生 一 些 新 的 模糊 词 ， 而 且 ， 就 是 被 认为 已 经 消 
ТМА МЛ КЛАРКА К ЕЖ, р ВЕ 
ТАЈ БАЛА iS У, БИИ ЖЕТЕ, W H kiya 
化 着 。 模 糊 问 是 一 个 历史 范畴 ， 模 精 语 义 并 不 是 永恒 不 变 的 。 从 
这 个 意义 上 说 ， 模糊 语义 的 研究 不 仪 对 于 语言 学 本 身 还 是 对 于 
整个 现代 科学 的 发 展 ， 孝 是 很 有 价值 的 。 在 研究 语言 符 号 的 槛 类 
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性 的 基础 上 而 产生 的 模糊 数学 ， 正 在 不 断 完善 它 的 基本 理论 ， 不 
断 拓 广 它 的 应 用 领域 。 现 在 ,模糊 数 学 的 应 用 已 涉及 到 育 类 分 析 、 
图 象 识别 、 自 动 疹 制 、 机 械 改 障 诊断 、 系 统 评 价 、 数 据 结构 、 情 
RER, HEA ATAR BETET, Mih ERE 
又 反 过 来 应 用 于 语言 学 。 模 类 语 言 的 研究 已 引起 了 语言 学 家 们 的 
浪 厚 兴趣 。1972 年 ， 在 美国 纽约 举行 的 一 次 词典 学 国际 讨论 会 
上 ， 美 国语 言 学 家 雷 柯 夫 《G, Lakoff) 作 了 一 个 在 词汇 研究 方面 
应 用 模糊 数学 的 报告 。 雷 柯 夫 高 兴 地 说 ,“ 我 们 现在 有 了 一 个 “可 
ZERE 一 一 模糊 集合 ”"。 他 在 讨论 会 结束 时 又 指出 ,模糊 性 将 成 
为 语言 学 的 一 个 主要 的 研究 领域 @ 。 


Ж 2 模糊 数学 在 语言 研究 中 的 应 用 


近年 来 ， 模 糊 数 学 在 汉语 研究 中 得 到 了 广泛 的 应 用 。 许 多 学 
者 在 词典 学 、 词 源 学 、 修 辞 学 、 术 请 党、 方言 学 中 ， 都 使 用 模糊 
数学 的 方法 ， 取 得 了 一 定 的 成 杂 。 这 里 不 可 能 面面俱到 地 介绍 这 
些 研 究 成 果 , 只 是 通过 一 些 实例 来 说 明 模糊 数学 与 雍 言 学 的 关系 。 

1848 年 ， 德 国语 言 学 家 格 里 木 (J Grimm) HJ 了 一 本 书 ， 
叫做 + 德意志 语言 史 ?。 认 为 德国 方言 不 是 高 地 德意志 语 、 就 是 你 
地 德意志 语 。 在 他 看 来 ， 属 于 既 不 是 高 地 德意志 语 、 又 不 是 优 地 
德意志 诺 的 法 兰 克 方言 (一 种 德语 方言 ) 早已 完 公 消失 。: 筷 格 斯 
深入 研究 了 法 兰 克 方 言 ， 认 为 这 种 方言 是 一 种 既是 高 地 德意志 的 
ХНА ЈГ Е, ЙАА, ВЕЗЕ ЕОР ВГА КЕЛ 
彼 ” 的 中 介 物 多 。 


个 史诗 捕 、 孙 齐 、 陈 化 成 ，“* 寞 网 数学 *, 科 学 出 版 补 ,1983 笔 ， 第 75 瑞 。 
СВ, «ИШЕ», АЛКИН, 197144, 81050, BPE 
格 里 木 译 为 格林 。 
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在 恩格斯 研究 法 兰 克 方 育 的 启示 下 ， 我 们 采用 模糊 数学 来 构 
造 方 盲 的 数学 模型 。 人 @ 

我 们 发 现 ， 语 言 符号 的 离散 性 和 模糊 性 具 迟 体 现在 方言 的 分 
布 上 ， 就 是 方言 既 不 连续 《离散 性 ) 而 又 相互 交错 〈 楼 糊 性 ) 这 
两 个 特点 。 

方 寡 不 连续 的 例 辽 很 多 ， 例 如 ， 北 京 语 与 啥 尔 滨 话 很 接近 ， 
而 介 于 这 两 考 之 闻 的 辽宁 活 ， 浊 与 北京 话 相 类 其 远 。 又 如 ， 离 成 
都 较 远 的 重庆 ， 古 入 下 字 都 变 为 阳平 ， 在 成 都 西 面 的 荣 央 则 保存 
ТАН, ERE ЖОНЕ А. РЗ, TARTINE 

Жн» BM БИНТ ЕЈ Е ОГТ, р 
ЖЕРШЕ, РАГУ, КЕРН bi, 
БШ, EJ KD H 2k, НЕА оС b ya), Ж 
Ж. RAER, ЖЕКагіги, рул НОЕ ВР. ЇН, ТЕҢ 
东京 很 近 前 横滨 附近 ， 这 个 词 却 念 Kain， 相 走 甚 远 。 而 县 ， 在 本 
州 中 部 一 大 片 念 Kariru 的 地 区 中 ， 却 又 散布 着 一 些 离散 的 点 ， 这 
个 词 念 作 Kareru。 有 趣 的 是 ， 这 个 词 的 恋 音 沿 善 南 起 太平 洋 伊 势 
湾 ， 北 到 日 本 海 富士 湾 的 一 条 区 线 而 一 分 为 二 ， 井 线 р ЈЕ Е 
Kariru， 而 曲线 以 西 则 读 作 Karu。 所 有 这 些 现象 ,都 说 明 方 言 读 
音 的 变化 是 不 迷 绪 的。 至 于 以 单个 形态 出 现 的 词汇 和 旬 法 特点 ， 
当然 就 更 不 是 连续 的 了 。 

再 谈 方 言 分 布 相互 交错 前 特点 。 便 如 ， 以 广大 的 吴语 区 内 部 
而 言 ， 江 苏 靖 江 附 近 方言 的 分 布 模式 十 分 有 趣 。 靖 江 县 说 吴语 ， 
背 江 其 北 画 说 苏 北 话 ， 南 面 说 官话 ， 浇 成 一 个 语 悍 岛 。 而 且 在 靖 
江 县 内 部 ， 又 有 一 个 小 区 域 讲 官话 ， 形 成 “ 岛 中 之 岛 ?。 在 江苏 
的 局 东 、 海 门 只 近 ， 有 一 种 当地 老百姓 称 为 “ 淆 钞 江 ”的 有 趣 现 
象 ， 指 的 是 沙里 活 属 其 语 区 的 海门 话 》 和 江北 话 官话》 往往 


THE, оТ, ЫН СТГ ВОН З, 《华东 师范 大 
FFR ЕТЕ ЖИЛЕ), 19835, ЖАН, 
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БАА oh А. RANAR. ЭУ nih 
РА ASE IRS Е Ву, FERRME 

因此 ， 我 们 可 以 采用 模糊 数学 的 方法 来 描述 方言 。 

对 于 模糊 集合 ， 不 能 党 经 典 集 合 那 样 画 出 有 边界 的 示意 图 。 
RATUR- RUTER FRA HERE ERER EA, H 
MaE A Са level set), 

ША ша БАВЕ, А, Ано ТЕ 
为 ， 

A, = {Uu ua) ф<йес1 
EREE ПЗЕ) ЖОНИ Ta ЕА ЕЖ x 的 集合 。 
A HRE STERR А, ВЯ т, 都 可 电 根 据 


BACE) G 
或 是 

ta Cay GQ 
来 判定 

z A, 
或 是 

тЄА, 


Р, ЛИНЕ АЖО БЭХ hA Pri АГ, 
也 就 是 说 ，4 有 了 新 的 袁 达 式 4 


A= foa, 
当 a 是 离散 值 时 ， 也 可 以 写成 
A= Dad, 
有 时候 ,我 们 只 对 某 一 些 离 葡 的 x 信 感 兴趣 ,就 可 以 选 下 一 组 
1015 中 


Та % 
As = {ui pau i=l, 2, е, Ñ 
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或 者 说 :组 
{A-is Aag, Ha Arg} 
TE OW SASA ARET. 2 LERT 
TERSA ХНА Ху 


S 
于 绘制 方言 地 图 很 用 用 处 。 
如 时 我 们 要 研 究 辐 一 论 域 上 74 
HATERS, H \ 


引入 模 烦 集合 4 和 和 模 炎 集合 B 之 
间 的 距离 (distance) 的 概念 。 
搬 设 苦 画 4 .3 的 素 属 函数 分 107.22 HARG- RR 
ур» W ZO AHB ZAHER EXA 
А,В) (2; u (u) ~ юс)" 


E RRN F, HP = 2, 于 是 有 
da СА, В) = пиз G) 
ЖИМА УВК Л, НЕ Е. 
Жї, НИКЕ ЕЕН ЖИШШ ИЛНЕ ЖШ, 如 
何在 统计 的 基础 上 绘制 方言 地 图 。 
1 .点 方言 特点 的 数学 描述 
要 考察 其 一 方 寡 点 z 上 的 方言 《 称 之 为 点 方 育 rz HANTE 
方言 8 的 素 属 关 系 ， 必 须 先 就 机 者 的 语音 、 训 汇 和 请 法 做 大 晤 的 
调查 工作 、 我 们 可 以 把 点 方 育 丰 成 是 由 语音 、 词 汇 和 语法 三 个 分 
BEHRAM, Hi 
S= (Grm SAD” SHR 
或 者 
S= 《931 5: 952 
МЫЖ, JE MA 248 38 
Z= GE i: Za) 
各 个 分 芋 相 内 于 $ 的 各 个 分 量 都 可 以 分 别 出 统计 结果 计算 其 隶属 
6.252 


Ет 
h, (z ї=1, 2, 3 
ВИТ, Ca i. Ж, z; 即 点 方言 z 的 语音 特点 ， 它 
也 是 一 个 辣 量 。 例 如 
Z1= (Шү, Sres Tia) 
ЖАЛАЛ ЖАНИ Др, 、 欧 母 特点 和 声调 特点 。 
BHE, AA St Ee, 
Si= 0511. Sigs 513) 
所 有 这 些 Si， MERNE G. 
点 方言 x 语 音 部 分 相应 方言 S 的 崇 属 函数 可 以 这 样 求 得 ， 


a 
н,Кх у= ХЕ: ИС. 


其 中 ,pC =1，2，3) 宸 示 的 是 ， 点 方言 的 zi1;X1: 和 саа 
元 素 分 曾 相 对 模糊 集合 S13Ci = 1, 2, 3) 的 未 属国 数 的 值 。 这 一 
阔 数 什 当 然 可 以 通过 对 于 两 者 各 自 的 调查 、 统 计 、 分 析 和 比较 而 
估计 出 来 。 式 中 Kili = 1，2，3) 称 为 “ 权 ", 它 是 满足 


s 
УК; = 1, Кз (= 1, 2, 3) 
i=l 


H-ARD CAIRE, WJ. WEATER И ЕТЕ 
音 特 色 中 所 起 的 必用 ， 也 即 比重 ,这 个 权 是 语言 学 家 研究 的 结果 。 
ЮЖ, TAR ` 
K i=0.35, K = 0.4, K, =0.25 
也 可 以 根据 研究 结果 取 其 它 的 数 利 。 
шж, урта 
зъб) = D bi s k. Grid) 


i= 1 


в.б) = DO Mie n. G) 


i=1 
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B 
веб) = У patam) 


i=; 


其 中 


5 
> 5 =1 


LEB. ЗЕНА S. HUHP Z ЖЕЛИ XH dH ЇЇ 
比重 。 

根据 上 面 关 于 no) 推导 过 程 的 简 间 讨论， 我 们 有 理由 把 
2 作为 描述 点 方言 ?与 方 育 S 之 关系 的 一 个 全 夯 的 和 数量 的 标 

2 .方言 差异 的 数学 描述 

我 们 可 以 用 欧 几 至 得 距离 的 概念 来 撒 述 方 音 之 BJ 的 差异 程 
次 。 首 先 ， 我 们 建立 几 个 天 方言 3; Оши, MIRE, ДЕ 
方 方 言 区 等 ) 相对 普通 话 P 的 煤 及 函数 

HCS #=1, 2, 3, ou, п 

这 样 ， 我 们 就 有 可 能 求 出 各 大 方言 之 间 的 上 距离 ， 


* 
465,5) = V TB (Six) — ирк) 


i, j=l, 2, 3, <, А 
HP po Sif ирк) (K=1, 2, 3) 分 别 表示 类 方 ESMS 
的 语音 、 词 汇 和 语法 相对 普通 话 P 的 语音 、 词 汇 和 语法 的 崇 岂 函 
Ж. 
ВЖЕ, АО ОНАР, уд 
间 的 差异 ， 即 1 


人 
бт, = > Lu a (X )— Ba (ui) 12 


3.23 Ë Bb EH 
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АННА АЕ ИА АЛТ t. HENA ЛЕНЕ EA 
分 布 情况 ， 不 能 给 人 人 们 带 来 一 种 总 体 的 和 数量 的 概念 。 

我 们 建议 ， 采 用 a 截 集合 的 概念 来 绘制 方 盲 地 图 。 

UREW 为 例 ， 我 们 取 吴 语 前 中 心地 带 为 中 心 ， 取 一 组 Ж 
#; 

{tis Eag ж а} 

БИШ, 0; = 0.95, а, =0.90, @„=0,85, +, а= 0,0544, 

然后 把 符合 

W, = (Пе) er} 


的 省 方言 点 4 连接 起 来 ， 就 能 形 
成 如 7 .3.2 的 图 。 

从 这 张 地 图 上 ， 我 们 可 以 站 
观 地 腊 出 几 种 相 邻 方言 之 间 在 小 
其 上 的 相互 关系 以 及 它们 与 某 一 图 7 ,2。2 模 糊 集 合 指导 下 的 方 育 
大 方言 关系 的 深 宰 程度 。 借 助 于 地 图 
这 种 方言 地 图 的 数量 性 和 整体 性 ， 我 们 还 可 以 观察 到 一 些 有 趣 的 
现象 。 例 如 ， 在 图 7.2,2 中 ， 有 两 个 大 方言 S; 和 83:， 图 中 显示 了 
这 两 个 方言 边缘 地 带 的 情 鼠 。 在 这 个 边缘 地 带 有 8 个 点 方言 ， 基 
А, В, С, D, Е, Р, СН, бр 

Hs,ns, (F) = Hs 5, (Су = 0,5 

WR UE BJ Par E 


Bs. s CA) = usinsat Ву = .= usa as: CH) = 0,25 


这 就 说 明了 和 G 两 个 方言 点 相对 于 Si 和 5。 的 共 闻 特点 而 言 最 为 
接近 ， 而 其 它 各 方言 ， 不 管 它们 与 S: MS 的 距离 如 何 ， 都 与 8 和 
5; 的 共同 点 租 差 较 远 。 扬 以 ， 从 图 上 我 们 很 快 就 能 找到 那些 在 最 
大 程度 上 接近 某 两 种 或 三 种 大 方言 的 点 方言 。 

书 前 ， 视 器 系统 和 人 文系 统 的 控制 都 存在 着 智能 化 的 倾向 ， 
计算 机 一 体 化 的 加 工 系统 则 要 求 一 系列 的 天 工 智 能 技术 。 АТ 
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帝 认 为 ， 智 能 化 的 决策 管理 系统 是 第 二 次 电子 革命 的 一 个 极为 重 
要 前 方面 ， 也 是 未 来 10 年 科学 找 术 的 主要 挑 骏 之 一 。 

在 人 工 知 能 研究 中 ， 上 自然 语言 的 表达 和 理解 钱 术 是 一 个 十 分 
锣 难 的 向 题 。 科 学 家 们 已 经 认识 到 ， 这 个 问题 比 他 们 原来 谨 预 料 
的 更 加 艰难 ,美国 国会 技术 评价 办 公 室 最 近 指 册 , 要 使 计算 机 其 备 
一 个 5 内 小 孩 的 自 热 语言 理解 能 力 说 不 定 是 20 年 之 后 的 于 。 

自然 语言 的 下 达 与 理解 的 主要 团 难 在 于 自然 语言 本 身 的 模糊 
性 。 这 种 困难 的 内 在 原因 是 我 们 对 于 人 人类 如 何 幅 存 和 处 理 模 糊 信 
息 的 机 制 还 不 十 分 清楚 ， 外 在 原因 是 我 们 还 没有 一 种 适合 于 处 理 
模糊 信息 的 工具 。 

由 模糊 数 学 创始 但 德 杂 自 开 拓 的 可 能 性 理论 、 模 糊 语 背 方 
法 久 及 由 此 而 产生 的 模糊 语 豆 逮 辑 、 自 然 语言 意义 表达 和 近 化 推 
理 已 构成 一 个 知识 分 支 ， 正 在 把 况 服 上 述 白 然 语言 理解 和 直达 技 
术 中 的 困难 当 作 自身 和 的 研究 目标 ， 目 前 已 到 得 了 一 些 令 人 鼓舞 的 
йй D 

ТЕУТА ВОЗЕН ЖИЕ АШ ЕЕ, ЖЕНШДЕ 
НААМИ НЕИН ВНЕ 中 的 模糊 
性 ， 而 实际 上 自然 语言 的 各 个 方面 所 表现 出 来 的 特性 几乎 都 只 能 
上 用 程度 来 描述 ， 语 义 本 身 有 程度 问题 ， 基 否 符 人 台 请 法 也 有 程度 问 
题 ,因此 ,一 个 没有 过 渡 的 真 值 或 束 属 程度 的 罗 厚 系统 〈 如 二 值 逻 
辑 系 营 )， 丰 能 用 来 作为 自然 启 言 理解 的 逻辑 系统 ,这 条 逻辑 系统 
对 于 意义 表达 、 知 识 表 这 利信 和 念 强度 的 表达 是 无 能 为 力 的 。 

查 德 在 1981 征 提出 的 * 测 分 语义 学 ”(Test-Sceore Semantics) 
为 解决 这 样 的 问题 提 殿 了 有 用 前 工具 四。 油分 语义 学 认为 ， 一 个 
语言 实体 (一 个 谓词 、 一 个 命题 、 一 个 馈 句 或 一 :个 命令 ) 的 作用 一 


二 陈 轩 入 ,< 知识 工程 中 自然 语义 的 灯 糊 综 迷 ¥， 科 学 出 版 补 ，1989 年 。 

Si. A. Zadeh, Test-Score Semantics for natural language and 
meaning representation viz PRUF, Technical Note 247, Univ. 
of California, 1981. 
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Ru W ESU H Rina h ЕА В, 
ВЕЗЕ К Seu ШШЕ у, ХНИ 
分 组 成 ， 

DRAE ЗЕН ЕАО, 

@@ 描 述 为 确定 每 种 限制 满足 程度 必须 进行 的 试验 ; 

名 规定 部 分 试验 所 得 的 测 分 如 何 合成 以 产生 总 测 和 分 。 

从 这 个 角度 来 看 ， 自 然 语 言 中 语言 实体 的 意义 ， 襄 是 对 扬 论 
语言 实体 中 包含 的 弹性 限制 的 试验 。 

如 打 我 们 想 试 验 一 个 有 语 襄 能 力 的 机 器 大 是 不 是 理解 一 个 命 
题 的 人 意义， 那么， 就 可 以 用 测 分 语义 学 的 方法 来 试验 ，。 

设 试 验 对 象 为 了， 所 论 的 命题 为 P 

p 全 张 三 正 在 和 李 四 一 起 跳 钴 

Et, FSA ER RELIST ZR. 

最 简 草 的 方法 是 让 H 观 看 各 种 各 祥 关于 张 三 和 李 四 联 合 活动 
的 情 虞 WC 例如 ， 一 些 照 片 )， 请 H 给 每 个 情景 WE W 与 他 所 感知 
的 p 的 意义 的 符合 程度 打分 ， 得 分 记 为 eCw)。 如 果 fHH 对 每 个 Ww 者 
能 久 给 出 正确 的 结果 ， 即 开 能 遂 这 汶 个 试验 ,那么 ， 就 可 断定 H 明 
ВРЕ. ШЕНИН Н АДЕМИ LARERE O) 的 斌 
RAE, ЖА, ЖАННАН ЕИ J.T Y pus x MEEN 
РА X iu at ys B| T В ТЕ EE. ВЕГО H, EE НИТ 
明 的 试验 过 程 而 不 是 别 的 什么 东西 代表 了 命题 p 的 意义 。 

在 测 分 语义 学 中 ，c(w) 是 直线 上 或 半 序 全 上 的 一 个 点 , 通常 
取 单 位 间隔 [0,11 作 为 c(Cw) 前 值 域 。cCw) 还 可 忆 是 单位 间隔 上 的 
概率 分 布 或 可 能 性 分 布 ， 甚 至 是 洗 率 分 布 与 可 能 性 分 布 的 组 合 。 

除了 用 情景 作 实验 ， 语 义 试验 还 可 以 在 另 一 个 更 抽象 的 层次 
上 进行 。 假 次 我 们 事先 有 一 组 措 述 情景 或 实际 状态 的 特征 ， 或 内 
事先 已 建立 了 一 个 关系 数据 库 令 。 在 这 种 情况 下 ,可 以 把 命题 p 出 
示 给 中 ， 让 五 在 3 上 微 一 组 试验 了 以 产生 测 分 rz， 写 成 公式 。 首 

t=T(Z)=Comp(p, 29) 
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式 中 ， 试 验 了 可 以 媳 作 命题 p 的 意义 表达 ! ШАР Уо ИТАР 
度 的 测度 。 

一 般 地 说 ,试验 7 是 出 若干 个 分 试验 Ti pe TARR, AM 
分 T 丰 分 试验 测 分 T1， сз т. Н. 其 中 ， т, i= 1, зз „лү 
别 是 站 的 测 分 。 在 测 分 语义 学 中 ， 根 据 情况 前 不 同 ， 总 测 分 可 以 
是 阔 师 -0，3] 之 中 的 一 个 壮 信 ， 也 可 以 是 一 个 矢量 ，z = (Cf;，…， 
r,)， 这 个 笑 景 中 的 每 个 分 基 是 间隔 [0,1J 中 的 一 全 数 、 一 个 驾 率 
分 布 或 一 个 可 能 性 分 布 。 

测 分 语义 试验 是 在 数据 库 上 进行 有 的。 数据 亩 由 许多 关系 组 
成 ， 每 个 关系 由 尖 格 来 表示 。 一 个 表 裕 有 其 栏 头 和 表 列 晤 。 栏 头 
包 播 关系 的 名 称 和 变量 的 名 称 ， 表 列 量 则 列 册 变量 的 值 , 即 数据 。 
例如 ， 玫 7.2.1 就 是 一 个 这 样 的 数据 库 


#E7.2.1 数 D Ж 
ж л | 姓 名 | 年 Ë | + Б 
Гав Е | 170 
zÉ 四 30 165 
= 


在 这 个 数据 库 中 , ЭБА" К, "ИН. ЕЙ, # 
高 ”是 关系 前 三 个 变量 ， 表 列 量 旭 “ 素 四 、30、165? 分 别 是 变 置 
“ 姓 和 名， 年龄 、 身 高 "的 一 个 值 ， 即 数据 。 在 分 析 中 ， 当 暂时 不 用 
具体 数据 时 ， 这 个 关系 可 用 其 栏 头 来 代表 ， 写 为 
病人 | 姓名 | Qe | 身高 | 
或 与 为 
病人 [姓名 ， Їй, JA 
显然 ， 这 是 一 :个 普通 关系 。 
当 讨 论 模 粮 关 系 时 ， 必 须 引 入 隶属 度 。 模 类 关系 数据 库 的 一 
般 形 式 如 小 7?7,2,2 所 示 。 
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ETAD BEDERE EIE 


—  —— Cg me em 


аа ЕВЕ 


| Tii г н | Tin Ra 


在 这 个 模糊 关系 数据 库 P, ro ksl eo EIT Xi 
询 的 家 列 数据 ， 而 ji 是 n 重 组 fi 会 Cri,，…，?io) 在 模糊 关系 R 中 的 
RRE, THE, AENG y с, 六 Ja 

В, ВЭУ, RARAS BAKE, БШ 
米 为 单位 ， 体 重 以 公斤 为 单位 ， 那 么 ， 我 们 可 以 有 


7.2.3 HHA E” Bu S ya E 


к | š | é m | a 


W 43 8 ЕПУ ЕН ik psk aK n ЫИ ЫЫ 168 EA, 
体重 为 63 公 斤 的 人 定义 为 “ 胖 ? 的 程度 是 0.8。 

在 自然 语言 中 ， 模 灶 词 “许多 、 大 多 数 、 儿 人 个、 少许 ， 攻 
乎 ”等 引导 的 有 弹性 肯 制 的 试 束 要 以 基数 来 者 示 。 

模 狗 集合 的 基数 的 概念 是 一 般 集 合 元 素数 概念 的 推广 。 

RARER r, 

А = р/н, ++ + B ft, 

Жш, ш, G= 1, <, нА ДЖ. 

Ф ОАТ ОО E АША, s SARSI EE 
пем, ят НИ АЕК ЛАШ ЫТ, RAE 
ЖД, TAEA) 
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Ж Count( As У; 


ЖШ, 5 Сому +0.8/b+0.5/ey= 2, 
Tm, уе ЕВН Ka А Wy pR O 
表达 命题 的 意义 可 以 体现 为 如 下 的 过 程 ， 
中 在 关系 数据 库 中 选 扣 作 试 验 的 关系 ， 
全 决定 作 什么 性 质 的 试验 
图 决定 各 个 分 试验 所 获得 的 测 分 如 何 结合 孔 求 得 总 测 分 。 
在 关系 的 选择 方面 ， 必 须 考 蜡 到 接受 者 的 知识 状态 ， 因 为 命 
题 的 意义 表达 受到 人 们 对 同 这 个 命 上 题 有 关 的 概念 和 变量 前 感知 的 
影响 。 我 们 假定， 对 于 接受 者 说 来 〈 不 论 这 个 接受 者 是 智能 机 器 
人 还 是 普通 人 )， 这 些 概念 和 变量 的 意义 是 已 敌 РУ, “ЕС” Ж 
味 闭 接受 者 认识 命 显 中 出 现 的 苛 本 记号 以 及 这 些 记 导 记 代 素 的 概 
念 及 属性 。 当 然 ， 在 测 分 语义 学 中 ， 记 导 、 概 念 与 属性 之 间 的 对 
应 可 以 是 有 弹 庭 的 。 f 
我 们 来 考虑 加 下 的 命题 ， 
РАЗ ШКЕ ЕСЕГЕ: 
假定 这 一 命题 被 理解 为 
а КЕЗКА АУЛ ЛЕЛЕ 
FEBE, 意义 表达 过程 和 的 接受 者 知 道 “ 大 多 数 、 过 是 饮 食 、 肥 胖 " 
眠 词汇 的 信义 。 在 这 种 情况 下 ,数据 库 座 该 包含 的 关系 为 
ЛАД ГНА: 年 龄 ， БЖ, 走高: 食量 1 
+ ЛЕСЕ He’ КШ; и] 
+ Ж ЖЕШ БЕШ, #1 
+ K3 Р н] 
式 中 ,“ 夯 ?代表 数据 库 中 所 有 与 给 出 的 命题 有 关 的 关系 ， “+” 


全 本 傅 结 自 ， 陈 国 权 ,* 知 识 工程 中 自然 语义 的 模 灶 表达 >, 科学 出 版 社 ， 
1988, 69» 
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表 并 运算 。 

数据 库 中 前 第 一 个 关系 为 “人 人物”, 此 关系 记录 了 被 研究 的 入 
的 姓 各 、 年 岭 、 体 重 、 吉 高 、 食 量 的 统计 数据 。 其 中 ， 食 量 这 一 
项 可 以 用 实际 消 糙 食物 激 与 该 咎 龄 、 体 恒 、 身 高 的 人 的 正常 消耗 
量 之 比 来 表示 。 | 

数据 序 中 的 第 二 个 关系 为 “ 肥 淋 ”, 星 关系 定义 一 个 有 一 定年 
龄 、 身 高 、 体 重 的 人 居于 肥胖 之 人 的 模 炳 集合 的 程度 。 这 个 来 属 
度 遂 常 用 符号 4 表示 ，k 是 年 铃 、 身 高 和 体重 的 函数 。 

数 独 摩 中 的 第 三 个 关系 为 “过 量 饮 食 ”, 此 关系 定义 了 有 一 定 
食量 的 人 属于 过 量 饮 食 之 人 的 模糊 集合 的 程度 。 素 属 度 也 用 上 表 
УР о 

数据 库 中 的 最 后 一 个 关系 “大 多 数 ” 把 模糊 词 天 和 多数 定义 为 
单位 记 四 中 的 模糊 集合 ，r 代 烽 一 个 煞 慎 比例, 吉 7? =0.,7，4=0.8 
表示 ?0 总 这 个 比例 算 为 “大 多 数 ” 的 隶属 度 为 0.8。 

上 述 数 据 兰 多 1 还 可 以 简化 为 郊 下 的 数据 库 多 2。 

аА ПЕЈН АҢГИ з 8]+ 这 量 饭 食 [ 姓 名} Hjt 
KER, и] 

在 数据 库 多 2 中 ,关系 “肥胖 "和 “过 叶 饮 食 * 都 直接 定义 在 人 物 
之 上 ,而 不 通过 年 龄 .体重 和 身高 这 些 中 介 变 量 的 数值 来 定 民 。 可 
以 茂 料 ， 从 数据 库 多 1 作 实 验 所 得 到 的 意义 表达 比 从 数据 库 多 ?2 作 
实验 所 得 到 的 意义 表达 更 为 透彻 。 

我 们 在 数据 库 多 2 上 描述 命题 ?的 意义 表达 的 全 过 程 ， 这 将 是 
一 个 试验 命题 p 与 数据 库 多 2 之 间 兼 容 恬 答 验 前 过 程 。 分 如 下 4 抄 ， 
第 1 步 ， 计 算 “ 人 物 ” 中 过 量 饮 食 的 人 小。 用 “姓名 i” 记 “人 物 ” 
中 第 ! 个 人 的 姓 和 名， 根据 Zcount 表 达 式 ， 有 


У Со) = Z (, 过 量 饮食 [姓名 = вр) 


第 2 步 ， 计算 “人 芜 ” 中 过 重 詹 食 的 膀子 的 人 数 。 这 时 ， 权 计算 模 
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NES ЧЕКА" ЯШ “ME КОЕ НЫЗЫ У Count, g Bi f: 
Ж-А BE i ВОКТ, 

ниш ж в (ЛЕС = нна GERD Анан ERD 
其 中 

инкас 17) = ‚ИОК ИГРЕ = ШЇ 411] 

шек ЖЕ = ,肥胖 [姓名 = ВЕ] 


и, ERR MRT D count 
S Coumta Rike N ЛАО 
= ССИ = КЕТУ А СОВИ - ШО) 
第 3 步 ， 计 算 过 量 饮食 的 胖子 让 过量 饮食 的 人 中 的 比例 。 
S Count А П ИЦ) 
S Counti ТУ 


r 


> C 过量 钦 食 [ 姓 名 = ЛСА = 姓名 7) ) 


>O ARD = н) 


第 四 步 ， 上 式 玫 未 的 比例 什 * 满 足 由 模糊 局 “大 多 数 " 引 导 的 限制 
的 程度 。 这 个 满足 程度 为 
T= 大 多数 Fr = у] 

这 个 浇 足 程度 是 一 个 测 分 ,可 以 解释 为 在 给 定 多 之 Fp 的 真实 人 或 
在 给 定 p 之 于 多 的 可 能 值 。 

从 这 个 例子 中 ， 我 们 可 尽 福 出 几 点 对 测 分 语义 学 有 将 遗 意义 

全 命题 ?的 意 浆 由 产生 测 分 f 的 试验 的 全 过 程 记 怖 达 。 

念 试验 的 朱 述 只 涉及 数据 库 中 关系 珍 格 的 栏 头 ， 与 数据 本 身 
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无 关 ， 恩 此， 试验 所 表达 的 是 Pp 的 内 涵 。 

使 斌 验 的 结构 取决 于 关系 栏 涉 的 选择 ， 因 此 ， 洛 用 另 一 个 数 
氢 库 〈 比 如 乡 1) 进 行 试 验 ， 试 验 过 程 的 描述 将 不 同 。 而 于， 即使 
关系 表格 的 栏 头 相 同 ， 若 采用 不 同 的 基数 定义 ， 试 验 过 程 的 描述 
也 有 所 不 同 。 

只 在 测 分 语义 学 中 2 的 选择 会 影响 意义 表达 前 深度 。 一 般 
说 来 ， 儿 的 详细 程度 决定 了 意义 表达 的 深度 。 例 如 ， 多 2 比 急 1 的 
详细 程度 低 ， 相 应 的 试验 过 程 传 达 的 关于 P 的 意义 的 信息 就 比较 
m. 

对 于 命题 

РУК ЕЕЕ 
最 简单 的 数据 库 多 为 

多 全 因果 [ 原因， 结果] 
其 中 , “因果 ?是 一 种 关系 ， 因 果 关 系 中 列 出 了 各 种 原因 及 其 引起 
的 结果 。 对 于 这 样 一 个 数据 库 ， 试 验 简 化 为 决定 下 面条 件 是 否 满 
<, 

саке, сия | 
ЖЛ, ЖШ {过 重 饮 食 ， 肥 胖 ) 蚌 因果 关系 中 的 一 个 
元 素 。 在 形式 上 ， 这 个 式 子 和 一 般 语 义 网 络 中 p 的 意义 岩 达 相同 。 

数据 库 多 的 分 辨 能 力 有 限 。 试 比较 如 下 两 个 命题 的 表达 。 
并 命题 
PARKA УЛ 
| ?全 肥胖 症 妇 因 于 过 量 饮 仿 
根据 因果 关系 数据 库 令 的 定义 ， 可 知 p 和 的 意义 相同 。 
但 是 ， 候 如 我 们 把 2 理解 为 9 
КЕЛЕА КЕЕ 
并 在 前 面 定义 的 数据 库 印 ?3 上 做 试验 ， 那 么 ， 可 求 得 4 的 测 分 为 ， 
i н 3 


22Count( 肥胖 ) 
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RAAE A RRA ЖОЛЫН РИ ИАЛ К,а" йр, 
1897 820 У Сойп р), pART, "ЛЕУ count 《饮食 过 
B), ИЕ ЈЕР BR Tp 和 2 的 差别 。 

ЮТ ИЛЕУ М, ЖИЕН Y 38 Huj BBT ЖИЕ ЖОЕ 
A (Possibilistic Relational Universal Fuzzy Language, 简 称 
РЕПЕР), Ж ИРКОЕ ДУ ЖАМИ. ni ҖИ Н+ ДКК BH VE 
APRUF {Н ДЕЗЕ ЯК, АЗН RAEE ТЇН 
Ë, ХШЖЖРЕ ТАТ,» BE, ШИ ЕЖЕН HUAN., H 
ТАЛ БИШЕ, ЕШ ЕГО Ж ДеП ЛЕ ЭЖ ИТ ЕЙ 
АЛЕКИ P ЕШ {КҮҢ ЭПК йй» 

ЖЖ, RIAA УНИЛЕ, ЖАШ, БИЙ, ЖН 
Е, КЁ, Emt, ЖИҢЕЛ ТОШ, ОЖТ ЫЕ 
НЕ К.А, НҢ УЗЕНА EJ ҮЗЕ Ө ШЕ ПЧ ЖО 
查 德 在 :模糊 语言 、 语 岩 变 量 及 模糊 逻辑 ?一 书 中 说 得 好 :一 种 现 
象 ， 在 能 用 定量 的 方法 表征 它 之 前 ， 不 能 认为 已 被 千 底 地 理解 ， 
这 是 现代 科学 的 基本 信条 之 一 。 开 耳 芬 《W. Thomson，1892 年 
幸 为 Lord Kelvin) 在 1883 年 说 过 ;在 物理 科学 中 ， 研 究 任 何 论 
题 的 关键 的 第 一 步 是 寻找 它 的 数值 计算 原理 和 与 之 有 关 的 一 些 性 
质 的 测量 方法 。 我 常 阅 ， 要 懂得 一 点 东西 ， 你 就 必须 设法 把 这 件 
东西 测量 出 来 并 且 把 它 表达 为 数字 。 相 反 ， 当 你 不 能 把 它 测量 出 
来 又 无 法 把 它 表 和 夺 为 数字 时 ， 你 对 这 件 东 西 的 知识 是 贫乏 而 不 充 
分 的 ， 知 识 可 能 在 你 前 头脑 中 ， 但 元 论 如 何 ， 你 前 思 想 还 未 进入 
科学 的 境界 '。? 中 德国 著名 哲学 家 康德 (I. Каш) 曾经 表述 过 这 样 
PRE: ЕРЕ ARARO NS ГЫЙ КЬ 
够 得 上 成 为 一 门 科学".@@ 美国 语言 学 家 华 特 茂 (J. Whatmough) 
Ф K ИЖА. ЕЛНИ PEA, PN 

б нед еЗ (Н. Sehuchadt) 的 论文 +Sachen und Woriera (39 


Hü), OPC КЕНЕГЕ Щ» REE, ИШЕ. 190E, 
第 275 页 )。 
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在 第 故居 国际 语言 学 家 大 会 的 发 育 中 指出 "有 一 种 Ж 入 之 见 ， 
认为 语言 学、 物理 学 、 生 理学 和 神经 学 都 咎 此 毫 无 关系 ， 正 是 这 
种 认识 阻碍 了 面 且 仍然 在 阻碍 着 进步 ， 在 语言 学 中 尤其 是 这 样 ， 
但 是 , 具有 数学 才 是 唯一 能 完全 理解 这 种 紧密 联系 的 理论 .@ 

由 于 语言 符 导 具有 本 书 中 所 说 的 这 些 竺 性 ， 因 此 ， 在 人 文科 
学 各 部 门 中 ， 语 言 学 是 比较 容易 使 用 数学 方法 的 。 美 国语 言 学 家 
Be K СЕ. Sapir》 星 就 说 过 ;“ 印 欧 比 较 语言 学 的 许多 公式 ， 其 
精密 程度 和 其 规律 性 今 人 想起 自然 科学 的 公式 或 者 叫做 定律 ”。 ® 
但 是 ， 作 为 人 文科 学 的 语言 尝 当 然 也 应 该 具有 一 般 人 文科 学 的 特 
性 ， 语 言 在 本 质 上 是 一 种 社会 现象 ， 在 语言 学 研究 中 ， 必 不 可 免 
地 要 遵从 人 文科 学 的 一 般 方 法 论 原 由 ， 从 这 个 意义 上 说 ， 数 学 方 
法 在 语言 学 中 的 应 用 又 是 有 条 件 的 和 有 限度 的 ,恩格斯 曾经 指出 ， 
“把 化 学 过 程 无 条 件 地 归结 为 纯 处 的 机 械 过 程 , 是 把 研究 的 领域 ， 
至 少 是 把 化 学 的 研究 领域 不 适当 地 缩小 了 ”。@ 作为 自然 现象 前 化 
学 过 程 尚且 不 能 无 条 件 地 归结 为 纯粹 的 机 械 过 程 ， 那 么 ， 作 为 社 
会 现象 的 语言 就 更 应 该 是 这 样 了 ， 因 此 我 们 在 语言 研究 中 ， 一 定 
要 从 具体 对 象 的 “ 质 ” 的 特点 出 发 ， 结 合 着 使 用 对 口径 的 数学 方 
法 ， 这 样 ， 才 能 使 数学 方法 起 到 怡 到 好 处 的 作用 。 数 学 和 语言 学 
是 人 类 古老 文 明 的 两 极 ， 它 们 的 * 远 绿 杂 交 ”， 一 定 会 开 出 甘南 前 
花 盯 ， 结 出 丰硕 的 果实 来 。 
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